New Approaches to OCR for Early Printed Books
DOI:
https://doi.org/10.36181/digitalia-00015Parole chiave:
History of the Book, Font Group Recognition, OCR, Document Analysis, Neural Network, Early Printed BooksAbstract
I libri stampati prima del 1800 presentano molte difficoltà per l'OCR. Uno degliostacoli principali è rappresentato dalla mancanza di diversità dei caratteri storici usati per lo sviluppo del sistema. Il progetto OCR-D, che ha visto la collaborazione di storici del libro e informatici, ha avuto il fine di affrontare questa carenza concentrandosi su tre problemi fondamentali. Il primo obiettivo è stato creare uno strumento che riconoscesse automaticamente le famiglie di caratteri nelle immagini di testi a stampa antichi. Ci siamo concentrati sulle famiglie di caratteri gotici comunemente usate nei testi stampati in Germania nel XV e XVI secolo: il più conosciuto Fraktur e le meno note Bastarda, Rotunda, Textura e Schwabacher. Lo strumento è stato sviluppato su 35.000 immagini, raggiunge un livello di precisione del 98% e riesce a distinguere non solo tra le famiglie di caratteri già menzionate ma anche tra ebraico, greco, antiqua e corsivo. È inoltre in grado di identificare immagini xilografiche e dati irrilevanti (coperte, pagine bianche ecc.). In una seconda fase abbiamo creato un’infrastruttura on-line (okralact) che facilita l’uso di vari motori OCR open source come Tesseract, OCRopus, Kraken e Calamari e che, allo stesso tempo, facilita l’apprendimento di modelli specifici per famiglie di caratteri. L'elevata precisione di questo software per il riconoscimento apre la strada all’opportunità senza precedenti di distinguere i caratteri utilizzati da ogni stampatore. Con una maggiore quantità di dati per il raffinamento e aggiustamenti successivi, questo strumento può rivelarsi utile nel colmare una lacuna considerevole nella ricerca storica.Downloads
I dati di download non sono ancora disponibili.
Downloads
Pubblicato
2020-12-23
Come citare
Weichselbaumer, N., Seuret, M., Limbach, S., Dong, R., Burghardt, M., & Christlein, V. (2020). New Approaches to OCR for Early Printed Books. DigItalia, 15(2), 74–87. https://doi.org/10.36181/digitalia-00015
Fascicolo
Sezione
Progetti
Licenza
Copyright (c) 2020 DigItalia
Questo articolo è soggetto a licenza Creative Commons Attribution-ShareAlike 3.0 Unported License.
Gli Autori che pubblicano su questa rivista accettano le seguenti condizioni:
- Gli Autori mantengono i diritti di proprietà intellettuale sulla loro opera e cedono alla rivista il diritto di prima pubblicazione dell'opera, sotto la seguente licenza: Attribuzione - Condividi allo stesso modo 3.0 Italia (CC BY-SA 3.0 IT). Tale Licenza permette ad altri di condividere l'opera indicando la paternità intellettuale e la prima pubblicazione su questa rivista.
- Gli Autori possono aderire ad altri accordi di licenza non esclusiva per la distribuzione della versione dell'opera pubblicata (es. depositarla in un archivio istituzionale o pubblicarla in una monografia), a patto di indicare che la prima pubblicazione è avvenuta su questa rivista.
- Gli Autori possono diffondere la loro opera online (es. in repository istituzionali o nel loro sito web) dopo la pubbicazione, poiché può portare a scambi produttivi e aumentare le citazioni dell'opera pubblicata (Vedi The Effect of Open Access).