Reconhecimento automático de texto

Da Cliomatica - Digital History.

Existem ferramentas que são capazes de reconhecer texto em uma imagem. Isso pode ser muito útil para fazer a transcrição automática de fotos que você tem de documentos de arquivo ou de livros em geral. Há basicamente dois tipos de reconhecimento, o OCR (Optical Character Recognition, ou reconhecimento óptico de caracteres) e o HTR (Handwritten Text Recognition, ou reconhecimento de texto manuscrito). O OCR é um padrão de reconhecimento que procura por formatos esperados de letras e é capaz de reconhecer textos sem aprendizado, pois já tem em seu projeto um modelo de como devem ser as letras. Isso funciona bem para textos impressos, mas não costuma dar certo para manuscritos, para o que existem os HTR. O HTR não sabe, de antemão, como serão as letras, pois a variação de caligrafias é muito grande. Ele se apoia em redes neurais para aprender, tendo como base exemplos fornecidos pelo usuário para que ele possa identificar as letras e palavras. Ao contrário do OCR, o HTR precisa ser ensinado, pois sua missão é muito mais complicada.

Vejamos melhor cada um deles:


OCR - Reconhecimento óptico de caracteres


HTR - Reconhecimento de texto manuscrito