Mudanças entre as edições de "Reconhecimento automático de texto"

De Cliomatica - Digital History
(Criou página com 'Existem ferramentas que são capazes de reconhecer texto em uma imagem. Isso pode ser muito útil para fazer a transcrição automática de fotos que você tem de documentos d...')
 
 
(3 revisões intermediárias pelo mesmo usuário não estão sendo mostradas)
Linha 1: Linha 1:
Existem ferramentas que são capazes de reconhecer texto em uma imagem. Isso pode ser muito útil para fazer a transcrição automática de fotos que você tem de documentos de arquivo ou de livros em geral. Há basicamente dois tipos de reconhecimento, o OCR (Optical Character Recognition, ou reconhecimento óptico de caracteres) e o HTR (Handwritten Text Recognition, ou reconhecimento de texto manuscrito). O OCR é um padrão de reconhecimento que procura por formatos esperados de letras e é capaz de reconhecer textos sem aprendizado, pois já tem em seu projeto um modelo de como devem ser as letras. Isso funciona bem para textos impressos, mas não costuma dar certo para manuscrito, para o que existe os HTR. O HTR não sabe, de antemão, como serão as letras pois a variação de caligrafias é muito grande. Ele se apoia em redes neurais para aprender, tendo como base exemplos fornecidos para que ele possa identificar as letras e palavras. Ao contrário do OCR, o HTR precisa ser ensinado, pois sua missão é muito mais complicada.
+
Existem ferramentas que são capazes de reconhecer texto em uma imagem. Isso pode ser muito útil para fazer a transcrição automática de fotos que você tem de documentos de arquivo ou de livros em geral. Há basicamente dois tipos de reconhecimento, o OCR (Optical Character Recognition, ou reconhecimento óptico de caracteres) e o HTR (Handwritten Text Recognition, ou reconhecimento de texto manuscrito). O OCR é um padrão de reconhecimento que procura por formatos esperados de letras e é capaz de reconhecer textos sem aprendizado, pois já tem em seu projeto um modelo de como devem ser as letras. Isso funciona bem para textos impressos, mas não costuma dar certo para manuscritos, para o que existem os HTR. O HTR não sabe, de antemão, como serão as letras, pois a variação de caligrafias é muito grande. Ele se apoia em redes neurais para aprender, tendo como base exemplos fornecidos pelo usuário para que ele possa identificar as letras e palavras. Ao contrário do OCR, o HTR precisa ser ensinado, pois sua missão é muito mais complicada.
  
 
Vejamos melhor cada um deles:
 
Vejamos melhor cada um deles:
  
  
[[OCR - Reconhecimento óptico de caracteres]]
+
'''[[OCR - Reconhecimento óptico de caracteres]]'''
  
  
[[HTR - Reconhecimento de texto manuscrito]]
+
'''[[HTR - Reconhecimento de texto manuscrito]]'''
 +
 
 +
 
 +
 
 +
[[category:Text Recognition]]

Edição atual tal como às 10h54min de 22 de setembro de 2020

Existem ferramentas que são capazes de reconhecer texto em uma imagem. Isso pode ser muito útil para fazer a transcrição automática de fotos que você tem de documentos de arquivo ou de livros em geral. Há basicamente dois tipos de reconhecimento, o OCR (Optical Character Recognition, ou reconhecimento óptico de caracteres) e o HTR (Handwritten Text Recognition, ou reconhecimento de texto manuscrito). O OCR é um padrão de reconhecimento que procura por formatos esperados de letras e é capaz de reconhecer textos sem aprendizado, pois já tem em seu projeto um modelo de como devem ser as letras. Isso funciona bem para textos impressos, mas não costuma dar certo para manuscritos, para o que existem os HTR. O HTR não sabe, de antemão, como serão as letras, pois a variação de caligrafias é muito grande. Ele se apoia em redes neurais para aprender, tendo como base exemplos fornecidos pelo usuário para que ele possa identificar as letras e palavras. Ao contrário do OCR, o HTR precisa ser ensinado, pois sua missão é muito mais complicada.

Vejamos melhor cada um deles:


OCR - Reconhecimento óptico de caracteres


HTR - Reconhecimento de texto manuscrito