New Approaches to OCR for Early Printed Books

Nikolaus Weichselbaumer; Mathias Seuret; Saskia Limbach; Rui Dong; Manuel Burghardt; Vincent Christlein

doi:10.36181/digitalia-00015

New Approaches to OCR for Early Printed Books

Nikolaus Weichselbaumer , Mathias Seuret , Saskia Limbach , Rui Dong , Manuel Burghardt , Vincent Christlein

Parole chiave: History of the Book, Font Group Recognition, OCR, Document Analysis, Neural Network, Early Printed Books

I libri stampati prima del 1800 presentano molte difficoltà per l'OCR. Uno degliostacoli principali è rappresentato dalla mancanza di diversità dei caratteri storici usati per lo sviluppo del sistema. Il progetto OCR-D, che ha visto la collaborazione di storici del libro e informatici, ha avuto il fine di affrontare questa carenza concentrandosi su tre problemi fondamentali. Il primo obiettivo è stato creare uno strumento che riconoscesse automaticamente le famiglie di caratteri nelle immagini di testi a stampa antichi. Ci siamo concentrati sulle famiglie di caratteri gotici comunemente usate nei testi stampati in Germania nel XV e XVI secolo: il più conosciuto Fraktur e le meno note Bastarda, Rotunda, Textura e Schwabacher. Lo strumento è stato sviluppato su 35.000 immagini, raggiunge un livello di precisione del 98% e riesce a distinguere non solo tra le famiglie di caratteri già menzionate ma anche tra ebraico, greco, antiqua e corsivo. È inoltre in grado di identificare immagini xilografiche e dati irrilevanti (coperte, pagine bianche ecc.). In una seconda fase abbiamo creato un’infrastruttura on-line (okralact) che facilita l’uso di vari motori OCR open source come Tesseract, OCRopus, Kraken e Calamari e che, allo stesso tempo, facilita l’apprendimento di modelli specifici per famiglie di caratteri. L'elevata precisione di questo software per il riconoscimento apre la strada all’opportunità senza precedenti di distinguere i caratteri utilizzati da ogni stampatore. Con una maggiore quantità di dati per il raffinamento e aggiustamenti successivi, questo strumento può rivelarsi utile nel colmare una lacuna considerevole nella ricerca storica.

PDF

Autori/Autrici

Nikolaus Weichselbaumer - University of Mainz

Mathias Seuret - University of Erlangen-Nuremberg

Saskia Limbach - University of Milan

Rui Dong - Northeastern University

Manuel Burghardt - Leipzig University

Vincent Christlein - University of Erlangen-Nuremberg

Licenza

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Copyright

Come citare

Weichselbaumer, N., Seuret, M., Limbach, S., Dong, R., Burghardt, M., & Christlein, V. (2020). New Approaches to OCR for Early Printed Books. DigItalia, 15(2), 74–87. https://doi.org/10.36181/digitalia-00015

Viewed - 1123 times
PDF downloaded - 222 times

Autori/Autrici

Nikolaus Weichselbaumer - University of Mainz

Mathias Seuret - University of Erlangen-Nuremberg

Saskia Limbach - University of Milan

Rui Dong - Northeastern University

Manuel Burghardt - Leipzig University

Vincent Christlein - University of Erlangen-Nuremberg

Licenza

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Copyright

Come citare

Viewed - 1123 times
PDF downloaded - 222 times

New Approaches to OCR for Early Printed Books

Autori

Nikolaus Weichselbaumer , Mathias Seuret , Saskia Limbach , Rui Dong , Manuel Burghardt , Vincent Christlein

Downloads

Autori/Autrici

Licenza

Copyright

Come citare

Condividi

Autori/Autrici

Licenza

Copyright

Come citare

Condividi