Revisão de 17h40min de 4 de julho de 2020 por Tiago (discussão | contribs) (Criou página com '{{Verbete|nome=Tiago|sobrenome=Gil|verbete= O reconhecimento óptico de caracteres é uma técnica de conversão de um formato de arquivo de imagem para texto. As imagens s...')
(dif) ← Edição anterior | Revisão atual (dif) | Versão posterior → (dif)

OCR - Reconhecimento óptico de caracteres

De Cliomatica - Digital History

{{Verbete|nome=Tiago|sobrenome=Gil|verbete=


O reconhecimento óptico de caracteres é uma técnica de conversão de um formato de arquivo de imagem para texto. As imagens são, na maioria dos casos, criadas em formato "raster" ou matricial, no qual uma grande quantidade de pontinhos (pixels) com cores diferentes forma um conjunto maior e inteligível ao olho humano. Veja abaixo um exemplo:


O que o OCR faz é identificar letras em meio a essas sequencias de pixels, transformando raster em linguagem vetorial, ou seja, em texto.

O OCR é bastante difundido e pode ser feito com diversos programas. Um dos mais conhecidos é o ABBYY FineReader, que é capaz de abrir uma grande quantidade de imagens e convertê-las automaticamente em texto. Alguns site, como o LightPDF oferecem esse serviço, mas com a limitação de uma página por vez. Da mesma forma, existe como fazer a conversão em lote de um grande volume de imagens através de um programa feito em Python ou R, quase sempre usando uma biblioteca chamada Tesseract.