Publicidade
Publicidade
19/07/2006
-
11h33
JULIANO BARRETO
da Folha de S.Paulo
Nem todo mundo sabe, mas o sistema buscador de páginas mais popular da internet é alimentado por um robô. Trata-se do Googlebot, um código especial que varre o mundo virtual visitando sites e colhendo informações sobre eles.
O bot do Google não é o único nem o primeiro a realizar tal tarefa. Desde os primeiros sites de busca, esse tipo de mecanismo, que também é chamado de spider (aranha) e de crawler (rastejador), ajudou a criar um guia da rede mundial. Hoje, a técnica ganhou sofisticação e precisão. Portais de notícias contam com robôs que procuram e selecionam conteúdo de milhares de fontes diferentes.
Trabalho pesado
Quando você consulta algum tema no Google, ou em qualquer outro serviço do gênero, o sistema de buscas não visita site por site procurando a informação desejada. O buscador conta com um índice com títulos, resumos e palavras-chave que definem cada endereço, e quem escreve tal lista é um bot.
No caso do Google, o robô visita uma página e segue todos os seus links. Dessa forma, de maneira progressiva e cumulativa, os sites que são indicados por mais links ganham posições e são mostrados para os usuários no topo da lista de resultados. Para ter uma idéia da complexidade desse trabalho, basta imaginar que existem mais de 10 bilhões de documentos on-line e que cada um deles possui dezenas de links.
Outra tarefa dos bots é atualizar os índices com novidades. Para tanto, é feita uma varredura mais freqüente em uma seleção de endereços cujo conteúdo muda mais rápido, como sites informativos. Portais noticiosos também podem ser administrados por robôs.
Os serviços que fazem as vezes de editor-chefe são realizados automaticamente e sem a interferência de humanos.
Os bots usam critérios como o número de visitas que uma notícia recebeu, quantos portais deram destaque para esse conteúdo e quais são os interesses do internauta cadastrado. A seleção de informações tem grande riqueza de fontes.
O MSNBC Newsbot (newsbot.msnbc.msn.com) tem 4.800 fontes e o Google News (news.google.com) tem cerca de 4.500. Ambos são em inglês.
Xereta
Nem tudo é perfeito no mundo dos robôs de buscas. A eficiência desses mecanismos às vezes é tanta que, muitas vezes, conteúdos de sites pagos ou de acesso restrito vão parar na tela principal de um site de buscas.
Para evitar isso, os donos de sites precisam incluir um código especial com instruções para os robôs. Quem quiser manter sua página fora do alcance do Google pode aprender como fazê-lo em www.google.com/intl/pt-BR/webmasters/bot.html.
Especial
Leia o que já foi publicado sobre inteligência artificial
Sistemas com inteligência artificial abastecem buscadores
Publicidade
da Folha de S.Paulo
Nem todo mundo sabe, mas o sistema buscador de páginas mais popular da internet é alimentado por um robô. Trata-se do Googlebot, um código especial que varre o mundo virtual visitando sites e colhendo informações sobre eles.
O bot do Google não é o único nem o primeiro a realizar tal tarefa. Desde os primeiros sites de busca, esse tipo de mecanismo, que também é chamado de spider (aranha) e de crawler (rastejador), ajudou a criar um guia da rede mundial. Hoje, a técnica ganhou sofisticação e precisão. Portais de notícias contam com robôs que procuram e selecionam conteúdo de milhares de fontes diferentes.
Trabalho pesado
Quando você consulta algum tema no Google, ou em qualquer outro serviço do gênero, o sistema de buscas não visita site por site procurando a informação desejada. O buscador conta com um índice com títulos, resumos e palavras-chave que definem cada endereço, e quem escreve tal lista é um bot.
No caso do Google, o robô visita uma página e segue todos os seus links. Dessa forma, de maneira progressiva e cumulativa, os sites que são indicados por mais links ganham posições e são mostrados para os usuários no topo da lista de resultados. Para ter uma idéia da complexidade desse trabalho, basta imaginar que existem mais de 10 bilhões de documentos on-line e que cada um deles possui dezenas de links.
Outra tarefa dos bots é atualizar os índices com novidades. Para tanto, é feita uma varredura mais freqüente em uma seleção de endereços cujo conteúdo muda mais rápido, como sites informativos. Portais noticiosos também podem ser administrados por robôs.
Os serviços que fazem as vezes de editor-chefe são realizados automaticamente e sem a interferência de humanos.
Os bots usam critérios como o número de visitas que uma notícia recebeu, quantos portais deram destaque para esse conteúdo e quais são os interesses do internauta cadastrado. A seleção de informações tem grande riqueza de fontes.
O MSNBC Newsbot (newsbot.msnbc.msn.com) tem 4.800 fontes e o Google News (news.google.com) tem cerca de 4.500. Ambos são em inglês.
Xereta
Nem tudo é perfeito no mundo dos robôs de buscas. A eficiência desses mecanismos às vezes é tanta que, muitas vezes, conteúdos de sites pagos ou de acesso restrito vão parar na tela principal de um site de buscas.
Para evitar isso, os donos de sites precisam incluir um código especial com instruções para os robôs. Quem quiser manter sua página fora do alcance do Google pode aprender como fazê-lo em www.google.com/intl/pt-BR/webmasters/bot.html.
Especial
Publicidade
As Últimas que Você não Leu
Publicidade
+ LidasÍndice
- Novo acelerador de partículas brasileiro deve ficar pronto até 2018
- Robôs que fazem sexo ficam mais reais e até já respondem a carícias
- Maratona hacker da ONU premia app que conecta médico a pacientes do SUS
- Confira lista de feeds do site da Folha
- Facebook e Google colaboram para combater notícias falsas na França
+ Comentadas