Descrição de chapéu internet tecnologia

Vazamentos mostram como funciona algoritmo de buscas do Google

Mesmo negando, empresa usa dados sobre comportamento de usuários no Chrome e no Android para rankear busca

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

São Paulo

O algoritmo de buscas do Google usa dados de navegação dos usuários, como a quantidade de cliques e tempo na página, para mostrar resultados; valoriza sites com mais reputação em determinados assuntos; favorece textos assinados por um autor e dá preferência a conteúdos acompanhados por vídeos.

Os mais de 14 mil critérios considerados pela empresa para ordenar os resultados das buscas constam em um vazamento de 2.596 arquivos de códigos do poderoso algoritmo da big tech, que joga luz sobre como rodam as engrenagens do maior buscador do mundo —e que confirma pontos que a empresa costumava negar publicamente.

As informações vieram à tona junto de outro vazamento relacionado à empresa, de uma série de alertas sobre violações de privacidade, emitidos por funcionários entre 2013 e 2018. As informações colocam em xeque as políticas de segurança da companhia.

Silhuetas de pessoas que compareceram a evento do Google sorbe inteligência artificial, ralizado em Paris, em maio
Silhuetas de pessoas que compareceram a evento do Google sorbe inteligência artificial, ralizado em Paris, em maio - Alain Jocard/AFP

Ambos os vazamentos indicam um descompromisso da empresa em manter seus usuários informados, na avaliação de um dos responsáveis pela divulgação das informações, o especialista em otimização para busca (SEO em inglês) Rand Fishkin.

Em pronunciamento, o Google afirmou que as informações vazadas estão desatualizadas e podem gerar confusão por estarem fora de contexto. A empresa chama as análises dos códigos vazados de "suposições imprecisas".

Procurada pela Folha, a big tech diz que "trabalha para proteger a integridade dos resultados de busca". Esse seria o motivo da cautela para divulgar detalhes sobre o algoritmo. A empresa afirma que publica informações sobre como o algoritmo funciona em seu blog.

A primeira leva de vazamentos indica que o Google usa dados de navegação dos usuários no navegador Google Chrome e em smartphones Android para rankear as buscas, ou seja, escolher a ordem dos resultados apresentados. Anteriormente, a empresa havia dito que não usava essas informações no seu processamento de rankeamento.

Embora esses dados estivessem disponíveis desde 13 de março na plataforma de código aberto GitHub, só passaram a repercutir junto à opinião pública após a divulgação de artigos dos especialistas SEO Fishkin e Mike King no fim de maio.

Além dos códigos com o algoritmo da plataforma, os pesquisadores receberam dicas de uma fonte anônima, que depois se identificou como o especialista em SEO turco Ergan Azimi. Nos últimos dias, pesquisadores têm se debruçado sobre os trechos de programação divulgados atrás de novas pistas.

Os textos divulgados por Fishkin e King mostram que, na busca do Google, há análise de número de cliques, tempo na página e o chamado "bounce back" —quando o usuário entra e sai da página em instantes, um índice de rejeição.

Sites com mais tempo na praça, com autoridade sobre certos assuntos, também são privilegiados pelo algoritmo. O Google negava que esses critérios fossem relevantes. Ganham destaque também textos com autor identificado e páginas com vídeos.

São mais de 14 mil critérios avaliados pelo algoritmo do Google, ao todo. O vazamento não mostra o peso de cada elemento na ponderação que dá ordem à lista de links.

Glossário

  1. Algoritmo de busca

    Conjunto de regras e procedimentos utilizados para determinar a relevância de uma página web nos resultados de busca.

  2. SEO

    Otimização para mecanismos de busca, conjunto de técnicas para melhorar o posicionamento de um site nos resultados de busca.

  3. GitHub

    Plataforma de hospedagem de código-fonte e colaboração para desenvolvedores.

  4. Big tech

    Termo utilizado para se referir às grandes empresas de tecnologia.

  5. Bounce back

    Quando um usuário entra e sai rapidamente de uma página web, indicando baixa relevância ou interesse.

  6. Streetview

    Serviço do Google Maps que oferece vistas panorâmicas de ruas e estradas.

À Folha, Fishkin, diz que é uma "afirmação dura" dizer que o Google mentiu, porém "não há outra palavra para descrever o ocorrido". "Ao ser questionada sobre critérios que melhoram o desempenho de uma página no rankeamento do buscador, descobertos à base de tentativa e erro, a empresa negou afirmações verdadeiras."

Ele diz que, entre os critérios avaliados, não há menção se o conteúdo é feito por inteligência artificial ou não.

De acordo com o segundo vazamento, divulgado inicialmente pelo site especializado 404 Media nesta segunda-feira (3), a gigante das buscas gravou voz de crianças, armazenou a placa de carros fotografadas durante o desenvolvimento de visualização de ruas Street View e usou dados deletados por usuários.

Os problemas foram corrigidos, conforme milhares de relatórios que somam 2.700 páginas e datam de 2013 a 2016, mas o Google não divulgou as violações ao público, como é de praxe no mercado.

Cada vazamento atingiu, individualmente, poucas pessoas. Foram gravadas, por exemplo, a voz de 1.000 crianças. Por outro lado, são inúmeros incidentes não notificados.

Veja exemplos

  1. Filtro para evitar a captura de voz de crianças, que não funcionou direito

  2. Pessoa que invadiu contas nas plataformas de anúncio AdWords e alterou informações

  3. Função do Waze permitiu vazamento de endereços de residência de usuários

  4. Funcionário do Google teve acesso a vídeos privados publicados na conta da fabricante de videogames Nintendo

  5. Youtube fez recomendações com base em histórico de pesquisa deletado, o que contraria as normas da própria plataforma

  6. Quando usuários do sistema operacional da Apple permitiam que qualquer pessoa com link acesse um documento, o Google o tratava como um arquivo público

No caso das placas anotadas, o funcionário do Google que enviou o relatório diz que foi um acidente. "Usamos um algoritmo de inteligência artificial que detecta texto nas imagens e os transcreve. Por azar, placas de trânsito também são texto e foram transcritas em vários casos", diz o relatório. Para evitar essa falha, o Google também tinha um algoritmo de inteligência artificial de detecção de placas, que, aparentemente, não funcionou.

O Google confirmou que as informações levantadas pela 404 Media faziam sentido. Ao site americano o buscador disse: "No Google, funcionários podem apontar rapidamente potenciais problemas enviados para revisão de especialistas, com diversos níveis de prioridade."

"Os relatórios obtidos pela 404 Media são de ao menos seis anos atrás e todos foram avaliados e resolvidos naquele tempo", afirma a empresa. "Houve casos, em que não era sequer um problema", acrescentou.

Para a diretora da entidade em defesa da proteção de dados Data Privacy Brasil Mariana Rielli, os vazamentos jogam luz sobre os efeitos não vislumbrados da adoção rápida de novas tecnologias, como a inteligência artificial. "Isso pode ficar cada vez mais frequente com a corrida para o desenvolvimento de IA."

De acordo com a especialista, as informações divulgadas, como não há detalhes de localidade da ocorrência, não permitem verificar se houve violação de algum lei de proteção de dados.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.