São Paulo, quarta, 5 de agosto de 1998

Texto Anterior | Próximo Texto | Índice

Entenda como funciona

especial para a Folha

Uma imagem gerada por um scanner é um conjunto (geralmente grande) de pontos contendo informações gráficas. Um conjunto de pontos formando uma letra não é identificável dentro de um arquivo BMP, GIF ou JPEG.
Não se pode fazer uma busca por uma palavra em arquivos como esses. OCRs trabalham na identificação de padrões dentro de uma imagem digitalizada.
Eles possuem um conjunto de caracteres (por isso é necessário identificar que línguas são utilizadas nos textos) usados como referência e fazem varreduras na imagens, tentando encontrar formações parecidas com as que ele possui, gerando caracteres ASCII para cada um.
O resultado é colocado num arquivo texto ou num formato qualquer de processadores ("Word", "WordPerfect" etc), geralmente muito menores que o arquivo de imagem.
Alguns OCRs permitem a identificação até de caracteres manuscritos, mas a carga de processamento é maior, para uma taxa de acerto menor.

Site com informações
Quem quiser saber mais sobre OCR's pode dar uma olhada em: http://documents.cfar.umd.edu, que tem uma quantidade muito grande de informações sobre o assunto e correlatos.
Existe também um grupo de discussão na Internet que é dedicado à discussão de sistemas de OCR: comp.ai.doc-analysis.ocr.



Texto Anterior | Próximo Texto | Índice


Copyright Empresa Folha da Manhã S/A. Todos os direitos reservados. É proibida a reprodução do conteúdo desta página em qualquer meio de comunicação, eletrônico ou impresso, sem autorização escrita da Agência Folha.