São Paulo, Sexta-feira, 06 de Agosto de 1999
Texto Anterior | Próximo Texto | Índice

NETVOX
Maiores, mas ainda não melhores

MARIA ERCILIA
Editora de Internet

No começo de julho, uma dupla de cientistas publicou um estudo na revista "Nature" dizendo que nenhum programa de busca chegava a alcançar mais de 16% da Internet. Todos juntos, os principais programas não chegariam a cobrir 42% das páginas da Web.
O resultado desanimador está provocando uma corrida entre os principais programas de busca. O norueguês Fast (www.alltheweb.com) saiu na frente, afirmando que agora é o maior de todos, com 200 milhões de documentos, e que em um ano pretende catalogar a Web inteira.
Logo atrás viriam, segundo o estudo da "Nature", o Northern Light (www.northernlight.com) e o Altavista (www.altavista.com). O Excite (www.excite.com), que tem cerca de 50 milhões de páginas, também anunciou esta semana que pretende aumentar bastante seu banco de dados -hoje, usa dez "aranhas" (robôs que percorrem a Web para catalogá-la), mas em breve vai passar a empregar dezenas delas, cada uma com capacidade para indexar 35 milhões de páginas.
O Altavista, que divulga ter um total de 150 milhões de endereços, ainda não se manifestou. A Inktomi, que fornece tecnologia para o Yahoo, RadarUOL e HotBot, afirma estar mais preocupada com o critério de seleção de resultados, mas vai aumentar o tamanho do seu banco de dados.
Esta corrida é de certa forma um retrocesso -uma retomada da disputa que acontecia no começo da Internet, quando os programas disputavam de perto quem tinha o maior banco de dados.
Depois, passaram a se concentrar em tentar melhorar a qualidade dos resultados, porque se percebeu que era esse o grande interesse dos usuários. Não parecem ter avançado muito nisso. Além de não termos garantia de que os melhores sites são os primeiros a aparecer, é comum uma pesquisa mostrar como resultado, por exemplo, páginas e páginas seguidas do mesmo site, ou links para páginas que não existem mais.
Afinal, essa história de ser o maior pode ficar bem nos releases, mas para mim e para você, que contemplamos uma página de resultados onde se lê "X" encontrou 198.877 páginas com a palavra "Y", tanto faz. Sabemos que não temos tempo nem paciência para passar dos primeiros 30 ou 40.
O que gostaríamos é de ter os melhores sites nas primeiras páginas de resultados, sem precisar quebrar muito a cabeça.
Na verdade, se os programas de busca conseguirem mesmo arquivar quase toda a Web, sem melhorar seus critérios de seleção, correm o risco de piorar muito -a proporção de sites inúteis pode aumentar ainda mais, diluindo os resultados mais relevantes. Imagine procurar a mesma agulha que você estava procurando antes, só que num palheiro cinco vezes maior.
Precisamos é de programas que separem a palha das agulhas, ou o joio do trigo. Além de aumentar radicalmente seus bancos de dados, as buscas precisam oferecer mais opções de pesquisa -portema, por língua, região, tipo de conteúdo etc.
Alguns programas, como Google (www.google.com) e DirectHit (www.directhit), usam uma medida de popularidade para selecionar os resultados: quanto mais links houver para uma página, melhor é a sua posição nos resultados.
Em muitos casos, esse sistema funciona, pois deixa para trás os sites mais obscuros. Mas Steve Lawrence, autor do estudo publicado na "Nature", considera o critério problemático: "pode prejudicar sites novos e deixar de fora páginas boas, mas não tão populares. Isso poderia levar a um cenário no qual as páginas já estabelecidas vão ficando cada vez mais populares e aumentam as barreiras para as páginas desconhecidas."



Texto Anterior: Documentário denuncia virtudes e aberrações do século 20
Próximo Texto: Cinema - "Corações Apaixonados": Comédia coloca dramas afetivos na fôrma
Índice


Copyright Empresa Folha da Manhã S/A. Todos os direitos reservados. É proibida a reprodução do conteúdo desta página em qualquer meio de comunicação, eletrônico ou impresso, sem autorização escrita da Agência Folha.