Revisão de 17h43min de 4 de julho de 2020 por Tiago (discussão | contribs)

OCR - Reconhecimento óptico de caracteres

De Cliomatica - Digital History

{{Verbete|nome=Tiago|sobrenome=Gil|verbete=


O reconhecimento óptico de caracteres é uma técnica de conversão de um formato de arquivo de imagem para texto. As imagens são, na maioria dos casos, criadas em formato "raster" ou matricial, no qual uma grande quantidade de pontinhos (pixels) com cores diferentes forma um conjunto maior e inteligível ao olho humano. Veja abaixo um exemplo:

Detalhe raster.PNG

Imagem de um documento do início do século XIX e sua ampliação de centenas de vezes ao lado, permitindo a identificação dos pixels que, em forma de matriz, compõem a imagem.


O que o OCR faz é identificar letras em meio a essas sequencias de pixels, transformando raster em linguagem vetorial, ou seja, em texto.

O OCR é bastante difundido e pode ser feito com diversos programas. Um dos mais conhecidos é o ABBYY FineReader, que é capaz de abrir uma grande quantidade de imagens e convertê-las automaticamente em texto. Alguns site, como o LightPDF oferecem esse serviço, mas com a limitação de uma página por vez. Da mesma forma, existe como fazer a conversão em lote de um grande volume de imagens através de um programa feito em Python ou R, quase sempre usando uma biblioteca chamada Tesseract.