Questo sito utilizza solo cookie tecnici o equivalenti.
Per maggiori informazioni clicca qui.

Search
Sezione: Progetti
Data di pubblicazione: 23-12-2020

New Approaches to OCR for Early Printed Books

Autori

I libri stampati prima del 1800 presentano molte difficoltà per l'OCR. Uno degliostacoli principali è rappresentato dalla mancanza di diversità dei caratteri storici usati per lo sviluppo del sistema. Il progetto OCR-D, che ha visto la collaborazione di storici del libro e informatici, ha avuto il fine di affrontare questa carenza concentrandosi su tre problemi fondamentali. Il primo obiettivo è stato creare uno strumento che riconoscesse automaticamente le famiglie di caratteri nelle immagini di testi a stampa antichi. Ci siamo concentrati sulle famiglie di caratteri gotici comunemente usate nei testi stampati in Germania nel XV e XVI secolo: il più conosciuto Fraktur e le meno note Bastarda, Rotunda, Textura e Schwabacher. Lo strumento è stato sviluppato su 35.000 immagini, raggiunge un livello di precisione del 98% e riesce a distinguere non solo tra le famiglie di caratteri già menzionate ma anche tra ebraico, greco, antiqua e corsivo. È inoltre in grado di identificare immagini xilografiche e dati irrilevanti (coperte, pagine bianche ecc.). In una seconda fase abbiamo creato un’infrastruttura on-line (okralact) che facilita l’uso di vari motori OCR open source come Tesseract, OCRopus, Kraken e Calamari e che, allo stesso tempo, facilita l’apprendimento di modelli specifici per famiglie di caratteri. L'elevata precisione di questo software per il riconoscimento apre la strada all’opportunità senza precedenti di distinguere i caratteri utilizzati da ogni stampatore. Con una maggiore quantità di dati per il raffinamento e aggiustamenti successivi, questo strumento può rivelarsi utile nel colmare una lacuna considerevole nella ricerca storica.      

Downloads

Autori/Autrici

Nikolaus Weichselbaumer - University of Mainz

Mathias Seuret - University of Erlangen-Nuremberg

Saskia Limbach - University of Milan

Rui Dong - Northeastern University

Manuel Burghardt - Leipzig University

Vincent Christlein - University of Erlangen-Nuremberg

Come citare

Weichselbaumer, N., Seuret, M., Limbach, S., Dong, R., Burghardt, M., & Christlein, V. (2020). New Approaches to OCR for Early Printed Books. DigItalia, 15(2), 74–87. https://doi.org/10.36181/digitalia-00015
  • Viewed - 817 times
  • PDF downloaded - 191 times
Condividi

Autori/Autrici

Nikolaus Weichselbaumer - University of Mainz

Mathias Seuret - University of Erlangen-Nuremberg

Saskia Limbach - University of Milan

Rui Dong - Northeastern University

Manuel Burghardt - Leipzig University

Vincent Christlein - University of Erlangen-Nuremberg

Come citare

Weichselbaumer, N., Seuret, M., Limbach, S., Dong, R., Burghardt, M., & Christlein, V. (2020). New Approaches to OCR for Early Printed Books. DigItalia, 15(2), 74–87. https://doi.org/10.36181/digitalia-00015
  • Viewed - 817 times
  • PDF downloaded - 191 times
Condividi