Search
Sezione: Documenti e Discussioni
Data di pubblicazione: 22-12-2025

Alfabeto arabo e OCR open source: un’analisi grafica e linguistica dei risultati di elaborazione per il recupero di dati catalografici

Autori

Il riconoscimento ottico dei caratteri (Optical Character Recognition, OCR) è uno strumento centrale per la conservazione di dati digitalizzati, ma mostra limiti significativi con alfabeti non latini, specie di fronte a stampe desuete o manoscritti, dove dati “rumorosi” e variabili contestuali ostacolano il riconoscimento ottimale. L’OCR è centrale nello sviluppo di applicazioni che prevedono l’impiego di altre tecniche di elaborazione del linguaggio naturale (Natural Language Processing, NLP). L’analisi degli errori, come fase di post-elaborazione (post-processing), può migliorare l’accuratezza soprattutto se combinata con un’analisi contestuale. Lo studio qui presentato ha l’obiettivo di delineare i tratti comuni degli errori commessi da tali OCR testati nel progetto Digital Maktaba.

Downloads

Autori/Autrici

Riccardo Amerigo Vigliermo - Università di Modena e Reggio Emilia – FSCIRE https://orcid.org/0000-0001-9914-3295

Come citare

Vigliermo, R. A. (2025). Alfabeto arabo e OCR open source: un’analisi grafica e linguistica dei risultati di elaborazione per il recupero di dati catalografici. DigItalia, 20(2), 179–202. https://doi.org/10.36181/digitalia-00150
  • Viewed - 19 times
  • PDF downloaded - 6 times
Condividi

Autori/Autrici

Riccardo Amerigo Vigliermo - Università di Modena e Reggio Emilia – FSCIRE https://orcid.org/0000-0001-9914-3295

Come citare

Vigliermo, R. A. (2025). Alfabeto arabo e OCR open source: un’analisi grafica e linguistica dei risultati di elaborazione per il recupero di dati catalografici. DigItalia, 20(2), 179–202. https://doi.org/10.36181/digitalia-00150
  • Viewed - 19 times
  • PDF downloaded - 6 times
Condividi