New Approaches to OCR for Early Printed Books

Autori

  • Nikolaus Weichselbaumer University of Mainz
  • Mathias Seuret University of Erlangen-Nuremberg
  • Saskia Limbach University of Milan
  • Rui Dong Northeastern University
  • Manuel Burghardt Leipzig University
  • Vincent Christlein University of Erlangen-Nuremberg

DOI:

https://doi.org/10.36181/digitalia-00015

Parole chiave:

History of the Book, Font Group Recognition, OCR, Document Analysis, Neural Network, Early Printed Books

Abstract

I libri stampati prima del 1800 presentano molte difficoltà per l'OCR. Uno degliostacoli principali è rappresentato dalla mancanza di diversità dei caratteri storici usati per lo sviluppo del sistema. Il progetto OCR-D, che ha visto la collaborazione di storici del libro e informatici, ha avuto il fine di affrontare questa carenza concentrandosi su tre problemi fondamentali. Il primo obiettivo è stato creare uno strumento che riconoscesse automaticamente le famiglie di caratteri nelle immagini di testi a stampa antichi. Ci siamo concentrati sulle famiglie di caratteri gotici comunemente usate nei testi stampati in Germania nel XV e XVI secolo: il più conosciuto Fraktur e le meno note Bastarda, Rotunda, Textura e Schwabacher. Lo strumento è stato sviluppato su 35.000 immagini, raggiunge un livello di precisione del 98% e riesce a distinguere non solo tra le famiglie di caratteri già menzionate ma anche tra ebraico, greco, antiqua e corsivo. È inoltre in grado di identificare immagini xilografiche e dati irrilevanti (coperte, pagine bianche ecc.). In una seconda fase abbiamo creato un’infrastruttura on-line (okralact) che facilita l’uso di vari motori OCR open source come Tesseract, OCRopus, Kraken e Calamari e che, allo stesso tempo, facilita l’apprendimento di modelli specifici per famiglie di caratteri. L'elevata precisione di questo software per il riconoscimento apre la strada all’opportunità senza precedenti di distinguere i caratteri utilizzati da ogni stampatore. Con una maggiore quantità di dati per il raffinamento e aggiustamenti successivi, questo strumento può rivelarsi utile nel colmare una lacuna considerevole nella ricerca storica.      

Downloads

I dati di download non sono ancora disponibili.

Downloads

Pubblicato

2020-12-23

Come citare

Weichselbaumer, N., Seuret, M., Limbach, S., Dong, R., Burghardt, M., & Christlein, V. (2020). New Approaches to OCR for Early Printed Books. DigItalia, 15(2), 74–87. https://doi.org/10.36181/digitalia-00015

Fascicolo

Sezione

Progetti