UOL


São Paulo, quarta-feira, 09 de abril de 2003

Próximo Texto | Índice

EM BUSCA DA INTERNET PERDIDA

Portais de notícia e de conteúdo aprimoram busca para deixar informação acessível

Sites querem recuperar memória da rede

Reprodução
Folha Online, que vai ganhar sistema de recuperação de notícias


Reprodução
Terra (www.terra.com.br), que tem projeto para achar páginas


MARIJÔ ZILVETI
DA REPORTAGEM LOCAL

Todos os dias, os sites de notícias despejam milhares de informações na rede. Um exército de jornalistas, webdesigners e programadores cria páginas na maior velocidade possível. Talvez com a mesma velocidade, outras tantas desaparecem na teia de informações da internet. Mas não foram apagadas. Estão, lá, em algum ponto. Na prática, porém, viraram lixo, como costuma acontecer com o que é guardado, mas não pode ser recuperado.
Isso porque os próprios sites de origem das notícias não costumam deixar acessíveis os links para as informações passadas.
Quando é um caso de grande repercussão, como os atentados de 11 de setembro de 2001, por exemplo, os sites criam páginas especiais e incluem ali links para tudo ou quase tudo que divulgaram. Mas, em geral, simplesmente empilham, e as mais novas vão tomando o lugar das antigas. O tempo de vida da informação varia, em geral, de três a cinco dias, dependendo do fluxo de notícias.
As quantidades de notícias produzidas e escondidas são enormes. Para dar uma idéia, basta dizer que, em 1999, institutos de pesquisa calculavam que a internet tinha 800 milhões de páginas.
Um ano depois, essa cifra saltou para 1 bilhão. O buscador Google (www.google.com) afirma hoje que indexa 3 bilhões de URLs (endereços). Teoricamente, pela quantidade de páginas indexadas, mecanismos como o Google e o Yahoo! (www.yahoo.com) deveriam ser capazes de encontrar tudo. Não é o que acontece. Em 1999, dois cientistas revelaram em estudo publicado na "Nature" que os endereços de pesquisa da época não abrangiam mais do que 16% do total de sites existentes na rede mundial.
Mesmo assim, os mecanismos de busca são ainda a melhor ferramenta para quem procura esses dados. Mas o interessado precisa garimpar bastante para obter uma resposta precisa. Os internautas acabam ficando com os primeiros resultados, segundo apontam institutos de pesquisa.
A questão vem preocupando diversos sites de notícias, que estão procurando reorganizar a forma que apresentam a informação para garantir a preservação dos dados e o acesso a eles.
Afinal, isso também pode se transformar em fonte de renda, como acontece no site do jornal "The New York Times", que mantém arquivos de tudo que é publicado no site. Quem quiser textos antigos pode usar o sistema de busca do site. Recebe uma lista com o primeiro parágrafo da notícia. Se precisar mais, terá de pagar pelo restante.


Próximo Texto: Portais padronizam indexação das páginas
Índice

UOL
Copyright Empresa Folha da Manhã S/A. Todos os direitos reservados. É proibida a reprodução do conteúdo desta página em qualquer meio de comunicação, eletrônico ou impresso, sem autorização escrita da Folhapress.