Riconoscimento automatico del testo
3 minuti - per Andrea Failla |
Con riconoscimento automatico del testo si intende un insieme di strumenti e sistemi capaci di leggere dati testuali ad alta velocità, individuando e riconoscendo il testo un carattere per volta [1]. Ciò può essere molto utile per trascrivere automaticamente le foto digitali o i pdf immagine di documenti, file e libri o, più in generale, qualsiasi immagine che contenga del testo. Testi e immagini sono dati di tipo diverso: mentre i primi sono sequenze di caratteri, le immagini sono sequenze di pixel, cioè di punti luminosi che possono “colorarsi” di rosso, giallo, o blu fino a formare, nel complesso, l’intero spettro dei colori percepibili dall’occhio umano. Convertire pixel in caratteri può rivelarsi piuttosto complesso. Il livello di difficoltà dipende soprattutto dalla qualità dell’immagine in ingresso – che deve essere più nitida possibile – e dalla leggibilità del testo che questa presenta.
Esistono fondamentalmente due tipi di riconoscimento automatico del testo, l’OCR [link] (Optical Character Recognition, ovvero il riconoscimento ottico dei caratteri stampati) e l’HTR [link] (Handwritten Text Recognition, cioè il riconoscimento del testo manoscritto). L'OCR è uno standard in grado di riconoscere i testi senza essere addestrato, poiché possiede già in memoria un modello delle lettere da individuare. Tale tecnologia risulta ideale per i testi stampati, ma solitamente non funziona con i manoscritti, per i quali è più adatto l’HTR. L'HTR, a differenza dell’OCR, non conosce a priori la forma delle lettere, che può variare a seconda delle diverse grafie. Perciò, si basa su reti neurali a cui vengono forniti in input degli esempi, dai quali impara a identificare lettere e parole in una specifica grafia. A differenza dell'OCR, l’HTR deve quindi essere addestrato, vista anche la maggiore complessità del compito che svolge.
Bibliografia e sitografia
- ↑ Cheriet M. et al. (2007), Character recognition systems, A Guide for Students and Practioners, Hoboken, John Wiley & Sons, Inc., p. xiii.
Citazione di questo articolo |
Come citare: FAILLA, Andrea . "Riconoscimento automatico del testo". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: https://lhs.unb.br/cliomatica/index.php?title=Riconoscimento_automatico_del_testo. il giorno: 7/02/2025. |
Informare errori in questa pagina |