Alfabeto arabo e OCR open source: un’analisi grafica e linguistica dei risultati di elaborazione per il recupero di dati catalografici
Il riconoscimento ottico dei caratteri (Optical Character Recognition, OCR) è uno strumento centrale per la conservazione di dati digitalizzati, ma mostra limiti significativi con alfabeti non latini, specie di fronte a stampe desuete o manoscritti, dove dati “rumorosi” e variabili contestuali ostacolano il riconoscimento ottimale. L’OCR è centrale nello sviluppo di applicazioni che prevedono l’impiego di altre tecniche di elaborazione del linguaggio naturale (Natural Language Processing, NLP). L’analisi degli errori, come fase di post-elaborazione (post-processing), può migliorare l’accuratezza soprattutto se combinata con un’analisi contestuale. Lo studio qui presentato ha l’obiettivo di delineare i tratti comuni degli errori commessi da tali OCR testati nel progetto Digital Maktaba.
