|
Texto Anterior | Próximo Texto | Índice
Entenda como funciona
especial para a Folha
Uma imagem gerada por um
scanner é um conjunto (geralmente grande) de pontos contendo informações gráficas. Um conjunto
de pontos formando uma letra não
é identificável dentro de um arquivo BMP, GIF ou JPEG.
Não se pode fazer uma busca por
uma palavra em arquivos como esses. OCRs trabalham na identificação de padrões dentro de uma
imagem digitalizada.
Eles possuem um conjunto de
caracteres (por isso é necessário
identificar que línguas são utilizadas nos textos) usados como referência e fazem varreduras na imagens, tentando encontrar formações parecidas com as que ele possui, gerando caracteres ASCII para
cada um.
O resultado é colocado num arquivo texto ou num formato qualquer de processadores ("Word",
"WordPerfect" etc), geralmente
muito menores que o arquivo de
imagem.
Alguns OCRs permitem a identificação até de caracteres manuscritos, mas a carga de processamento
é maior, para uma taxa de acerto
menor.
Site com informações
Quem quiser saber mais sobre
OCR's pode dar uma olhada em:
http://documents.cfar.umd.edu,
que tem uma quantidade muito
grande de informações sobre o assunto e correlatos.
Existe também um grupo de discussão na Internet que é dedicado
à discussão de sistemas de OCR:
comp.ai.doc-analysis.ocr.
Texto Anterior | Próximo Texto | Índice
|