Folha de S.Paulo - Buscador Google só alcança 1% da internet

São Paulo, quarta-feira, 31 de agosto de 2005

Próximo Texto | Índice

PROFUNDEZAS DA REDE

Serviços de pesquisa ignoram a maior parte dos documentos on-line; ferramentas especializadas são opção

Buscador Google só alcança 1% da internet

JULIANO BARRETO
COLABORAÇÃO PARA A FOLHA

Considerado um oráculo dos tempos modernos, o Google (www.google.com.br) ganhou fama por ser supostamente capaz de encontrar qualquer página da internet em poucos segundos. A velocidade do site é realmente notável, mas especialistas afirmam que sua área de pesquisas é restrita a aproximadamente 1% do total de arquivos da rede.
Além de sites comuns, a internet abriga arquivos de áudio e de vídeo, imagens, bancos de dados, sites com acesso restrito e diversos tipos de servidor.
No total, de acordo com números da empresa Connotate Tecnologies (www.connotate.com), existem cerca de 600 bilhões de arquivos na rede, mas o Google acessa apenas cerca de 8 bilhões.
Para acessar essa outra camada de informação, que também é chamada de internet profunda ou invisível, é preciso contratar os serviços de empresas especializadas ou então se valer de buscadores dedicados a um tema específico, que podem exibir resultados mais precisos do que os sites de busca generalistas, como o Google ou o Yahoo!.
Uma terceira opção é usar comandos especiais nos portais para tentar filtrar os resultados.
Há também engenhos, como o Turbo10.com, que acessam listas de bancos de dados externos e permitem encontrar sites ignorados pelos outros buscadores.
De uso gratuito, o Turbo10 também pode ser personalizado pelos usuários. É possível adicionar fontes de informação ao engenho e refinar ainda mais as pesquisas na internet.
Os resultados obtidos com cada tipo de técnica, entretanto, são díspares e ainda não conseguem satisfazer todos os usuários. Grande parte dos sites que usam as novas tecnologias segue em caráter experimental (beta) e se destina a aplicações específicas, como encontrar documentos de instituições de ensino ou de empresas privadas.

Questão de Estado
As tecnologias para exploração das profundezas da internet são consideradas ferramentas importantes para o governo dos EUA.
Prova disso é a participação de órgãos governamentais em projetos que visam filtrar dados presentes nas camadas menos acessíveis da rede.
A Connotate Tecnologies desenvolve um serviço de busca em parceria com o Departamento de Defesa dos EUA e usa uma programação especial para obter mais arquivos de cada endereço pesquisado. "Nosso produto é um complemento aos sites de busca e não usa um índice de páginas. O usuário informa um endereço e um código especial extrai as informações", diz o vice-presidente da Connotate, Dan Haughton.
Para que as buscas do mecanismo fiquem mais eficientes, programas chamados information agents (agentes de informação) monitoram e filtram os tipos de dados encontrados na localização informada pelo usuário.
Outra iniciativa para exploração da Deep Web é o projeto Aquaint (www.ic-arda.org/InfoExploit/aquaint/index.html), que é desenvolvido por um grupo formado por empresas, por universidades e pela CIA (agência de inteligência dos EUA). A base do Aquaint é um sistema capaz de relacionar dados no formato de perguntas e de respostas chamado de Q.A (questions and answers, em inglês).
Além de extrair informações de fontes da internet, o Aquaint poderia monitorar e converter o conteúdo exibido na televisão e nas estações de rádio em uma única base de dados.
Apesar do intuito de melhorar as pesquisas de civis, o potencial de um sistema capaz de varrer bancos de dados privados poderia ser usado para a espionagem.
Em teoria, um engenho que acessa sites restritos poderia buscar informações armazenadas em contas de webmail e em outras páginas com conteúdo protegido.

Próximo Texto: Site temático traz resultados úteis
Índice

Copyright Empresa Folha da Manhã S/A. Todos os direitos reservados. É proibida a reprodução do conteúdo desta página em qualquer meio de comunicação, eletrônico ou impresso, sem autorização escrita da Folhapress.