São Paulo, quarta-feira, 01 de abril de 2009

Texto Anterior | Próximo Texto | Índice

teste USP

Soft transforma imagens em texto

LEITOR >> Programa de reconhecimento de caracteres gera arquivos de texto editáveis por meio do Word

EDUARDO MARQUES
CARLOS ROBERTO P. ALMEIDA JR.
ESPECIAL PARA A FOLHA

Hoje, armazenar informações em meio digital é mais barato e prático do que nunca. No caso de documentos de texto, existem técnicas que permitem digitalizar o conteúdo do papel para torná-lo editável em softwares como o Word.
Documentos convertidos ocupam menos espaço em dispositivos de armazenamento e são eficientes para o gerenciamento e recuperação da informação. Vários programas comerciais fazem essa conversão. Um deles é avaliado neste teste: o software para OCR FineReader Professional 9.0, da empresa russa ABBYY.
A OCR (reconhecimento ótico de caracteres, na sigla em inglês) é uma tecnologia que permite o reconhecimento de caracteres em documentos digitalizados, como aqueles obtidos por scanners ou máquinas digitais, permitindo que um texto se torne editável, evitando a sua redigitação.

Reconhecendo
O software da ABBYY tem, como diferenciais, funções de reconhecimento automático do idioma do documento, conversão de documentos em PDF não protegidos para editáveis do Office, criação de novos padrões OCR, treinamento para reconhecimento de padrões e processamento em lote de arquivos digitalizados.

Recursos
O reconhecimento de idiomas em um documento é feito de modo automático. Há suporte para até 138 línguas e 38 dicionários, abrangendo português do Brasil.
O reconhecimento é feito mesmo em textos com mais de um idioma. Se houver falha no reconhecimento, as partes atingidas poderão ser associadas aos idiomas corretos. Depois, basta repetir o processo de reconhecimento.
Nos testes, utilizamos o scanner da multifuncional HP C4280, na resolução de 300 DPI, e suporte de driver WIA. Poucos foram os casos em que foi necessário recorrer à seleção manual de idiomas. No entanto, alguns pequenos erros, como o reconhecimento de palavras em itálico, negrito e acentuadas, foram notados.

No Office
A tecnologia ADTR do FineReader reconstrói o texto convertido para formato editável do Office, atuando de maneira a tentar preservar o leiaute original do documento. O software identifica texto organizado em colunas, números de páginas, tabelas, gráficos e notas de rodapé.
Esse recurso nem sempre atuou de forma eficaz, pois folhas com leiaute mais complexo não foram estruturadas de maneira correta.
Outrossim, alguns documentos com tabelas contendo imagens e textos não foram reconstruídos adequadamente.
Todavia, o soft permite que seleções manuais sejam definidas para que se consiga reconstruir corretamente as tabelas.

Integração com o sistema
No sistema operacional, a integração do FineReader possibilita que arquivos em formato não editável, como imagens e alguns PDFs não protegidos, sejam convertidos por meio de opções acessíveis por clique do botão direito do mouse.
Também é possível, no Outlook, no Word e no Excel, importar dados convertidos pelo programa. Ele também permite a exportação para diversos formatos, como PDF (com a possibilidade de incluir senha), HTML, XML, DOC, RTF etc.

Posicionamento
Automaticamente, o software pode corrigir a inclinação de páginas digitalizadas e dividir as que são duplas, como as de livretos. Ele também detecta quando a imagem foi digitalizada ou fotografada. Nesse caso, antes do reconhecimento dos caracteres, algoritmos são utilizados para compensar a distorção causada pela lente.
No manual, a recomendação é a de que a fotografia de textos seja feita, no mínimo, com máquina com resolução de 2 Mpixels e com lentes de foco variável. O objetivo é obter uma imagem homogênea em brilho, bem enquadrada e pouco distorcida.
Nos testes, verificamos que isso só é obtido com uma boa perícia no momento de fotografar. Máquinas que possuam estabilizador ótico tendem a ser melhores para isso.
O FineReader também conta com uma ferramenta que permite executar tarefas de forma automática. É possível, por exemplo, abastecer com páginas um scanner com alimentador automático e configurar o software para que o conteúdo seja convertido para um formato definido.
O FineReader surpreende pela notável precisão no reconhecimento de texto em documentos digitalizados. Complementando essa qualidade, o revisor de textos do software auxilia de um modo simples e objetivo a encontrar palavras qualificadas como passíveis de não terem sido reconhecidas corretamente.
O soft ainda permite que um documento seja gerado sem ser plenamente convertido, mantendo palavras na condição de imagem por não terem sido identificadas de forma precisa.

Conclusão
A performance do FineReader pode ser considerada muito boa. Entretanto, ela depende da qualidade do documento a ser convertido. Por tal motivo, a ABBYY otimizou seu soft para computadores com múltiplos núcleos. Resta considerar que, mesmo demorando, o tempo para redigitar o texto ainda seria muito maior.


EDUARDO MARQUES é doutor pela Escola Politécnica da USP e docente do ICMC-USP. CARLOS ROBERTO P. ALMEIDA JR. é bacharelando do ICMC-USP.


Texto Anterior: Eventos on-line: Acontece na internet
Próximo Texto: Foto: Versão profissional do soft identifica texto em captura de tela
Índice


Copyright Empresa Folha da Manhã S/A. Todos os direitos reservados. É proibida a reprodução do conteúdo desta página em qualquer meio de comunicação, eletrônico ou impresso, sem autorização escrita da Folhapress.