Mudanças entre as edições de "OCR"

De Cliomatica - Digital History
Linha 17: Linha 17:
 
Oggi la maggior parte dei software di OCR è in grado di processare testi scritti in alfabeto latino senza troppe difficoltà; per questa ragione, la ricerca del settore si sta muovendo verso lo sviluppo di algoritmi che riconoscano unità grafiche più complesse, come i caratteri arabi, gli ideogrammi Han cinesi e giapponesi, gli Hiragana e i Katakana <ref> Lenci A. ''et al''. (2016), ''Testo e Computer – Elementi di linguistica computazionale'', Roma, Carocci, pp. 60</ref>  .
 
Oggi la maggior parte dei software di OCR è in grado di processare testi scritti in alfabeto latino senza troppe difficoltà; per questa ragione, la ricerca del settore si sta muovendo verso lo sviluppo di algoritmi che riconoscano unità grafiche più complesse, come i caratteri arabi, gli ideogrammi Han cinesi e giapponesi, gli Hiragana e i Katakana <ref> Lenci A. ''et al''. (2016), ''Testo e Computer – Elementi di linguistica computazionale'', Roma, Carocci, pp. 60</ref>  .
  
La tecnologia OCR è molto diffusa ed è implementata da diversi programmi. Tra i software scaricabili più noti si ricorda [https://pdf.abbyy.com/it/#:~:text=ABBYY%20FineReader%20PDF%3A%20the%20smarter,nell'ambiente%20di%20lavoro%20digitale.&text=FineReader%20PDF%20consente%20ai%20professionisti,sul%20posto%20di%20lavoro%20digitale. ABBYY FineReader] (disponibile per i sistemi operativi Windows e MacOS), un software professionale a pagamento che fornisce strumenti avanzati di visualizzazione ed elaborazione PDF, tra cui la conversione automatica in testo con OCR. Inoltre, è anche possibile usufruire di servizi di OCR online. Alcuni siti, infatti, implementano tale tecnologia e la offrono agli utenti, sebbene spesso presentino alcune limitazioni. Un esempio è il servizio offerto gratuitamente da Google. Caricando un’immagine sul proprio account di Google Drive, infatti, è possibile cliccarci sopra col tasto destro e selezionare prima “Apri con” e poi “Documenti Google”.   
+
La tecnologia OCR è molto diffusa ed è implementata da diversi programmi. Tra i software scaricabili più noti si ricorda [https://pdf.abbyy.com/it/#:~:text=ABBYY%20FineReader%20PDF%3A%20the%20smarter,nell'ambiente%20di%20lavoro%20digitale.&text=FineReader%20PDF%20consente%20ai%20professionisti,sul%20posto%20di%20lavoro%20digitale. ABBYY FineReader] (disponibile per i sistemi operativi Windows e MacOS), un software professionale a pagamento che fornisce strumenti avanzati di visualizzazione ed elaborazione PDF, tra cui la conversione automatica in testo con OCR. Inoltre, è anche possibile usufruire di servizi di OCR online. Alcuni siti, infatti, implementano tale tecnologia e la offrono agli utenti, sebbene spesso presentino alcune limitazioni. Un esempio è il servizio offerto gratuitamente da Google. Caricando un’immagine sul proprio account di [https://www.google.com/intl/it_sm/drive/ Google Drive], infatti, è possibile cliccarci sopra col tasto destro e selezionare prima “Apri con” e poi “Documenti Google”.   
  
 
}}
 
}}

Edição das 20h27min de 23 de junho de 2021

Tempo di lettura 4 minuti - per Andrea Failla


Il Riconoscimento Ottico dei Caratteri (OCR, dall’inglese Optical Character Recognition) è un insieme di strumenti atti a convertire il formato di un file da immagine a testo. Le immagini, nella maggior parte dei casi, sono create in grafica raster, e funzionano quindi come una matrice in cui una grande quantità di punti, i pixel, formano un ampio spettro di colori intelligibili per l'occhio umano. Segue un esempio:

Fig. 1. Immagine di un documento dell'inizio del XIX secolo ingrandita centinaia di volte, così da consentire l'identificazione dei pixel che, sotto forma di matrice, compongono l'immagine.

L’OCR, una volta analizzate le sequenze di pixel, identifica al loro interno dei caratteri, trasformando la matrice in linguaggio vettoriale, ovvero in testo. Ad esempio, se si passa un’immagine contenente la parola “Vendesi!” a un OCR, questi confronterà uno per volta i gruppi di pixel che contengono ciascun glifo (V maiuscola, E minuscola, N minuscola, e così via fino al punto esclamativo) con le immagini dei caratteri che ha in memoria, e restituirà l’informazione testuale equivalente – cioè la stringa di caratteri “Vendesi”.

L’acquisizione di un’immagine in OCR può presentare elementi di criticità, che dipendono

  • il software utilizzato;
  • la leggibilità dell’immagine originale;
  • il carattere con cui il testo è scritto [1].

Oggi la maggior parte dei software di OCR è in grado di processare testi scritti in alfabeto latino senza troppe difficoltà; per questa ragione, la ricerca del settore si sta muovendo verso lo sviluppo di algoritmi che riconoscano unità grafiche più complesse, come i caratteri arabi, gli ideogrammi Han cinesi e giapponesi, gli Hiragana e i Katakana [2] .

La tecnologia OCR è molto diffusa ed è implementata da diversi programmi. Tra i software scaricabili più noti si ricorda ABBYY FineReader (disponibile per i sistemi operativi Windows e MacOS), un software professionale a pagamento che fornisce strumenti avanzati di visualizzazione ed elaborazione PDF, tra cui la conversione automatica in testo con OCR. Inoltre, è anche possibile usufruire di servizi di OCR online. Alcuni siti, infatti, implementano tale tecnologia e la offrono agli utenti, sebbene spesso presentino alcune limitazioni. Un esempio è il servizio offerto gratuitamente da Google. Caricando un’immagine sul proprio account di Google Drive, infatti, è possibile cliccarci sopra col tasto destro e selezionare prima “Apri con” e poi “Documenti Google”.


Bibliografia e sitografia

  1. Tomasi F. (2008), Metodologie informatiche e discipline umanistiche, Roma, Carocci, pp. 184-186
  2. Lenci A. et al. (2016), Testo e Computer – Elementi di linguistica computazionale, Roma, Carocci, pp. 60



Citazione di questo articolo
Come citare: FAILLA, Andrea . "OCR". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/OCR. il giorno: 30/09/2024.






Informare errori in questa pagina