Inteligência artificial internet pirataria

Google e Meta treinaram IA com conteúdo pirata, sites pornô e supremacistas, diz jornal

Washington Post analisou cerca de 10 milhões de websites que serviram de referência para construção da base de dados

Já é assinante? Faça seu login

Continue lendo com acesso ilimitado.
Aproveite esta oferta especial:

Oferta Exclusiva

6 meses por R$ 1,90/mês

SOMENTE ESSA SEMANA

Cancele quando quiser

Notícias no momento em que acontecem, newsletters exclusivas e mais de 200 colunas e blogs.
Apoie o jornalismo profissional.

São Paulo

Uma investigação feita pelo jornal The Washington Post mostrou que a base de dados do Google usada no treinamento de modelos de inteligência artificial (IA) da própria empresa e de outras gigantes da tecnologia, como a Meta, continha arquivos piratas, sites pornográficos e fóruns extremistas.

O jornal americano destrinchou o arquivo chamado de C4, que tem conteúdos de 15 milhões de sites da internet aberta.

Com ajuda do Instituto Allen para Pesquisa em IA, o Post cruzou os dados com informações da plataforma de monitoramento da internet Similar Web para separar os links encontrados em categorias, como negócios, imprensa e cultura. Cerca de 5 milhões de endereços foram descartados da base por não estarem mais listados na internet.

A investigação encontrou fontes óbvias como a Wikipedia e a versão online de alguns dos principais meios jornalísticos ao redor do mundo.

No entanto, também identificou ao menos 28 sites retirados do ar pelo Departamento de Justiça dos Estados Unidos por infringir leis de propriedade intelectual —a biblioteca pirata b-ok.org ficou em 190º lugar na lista de importância entre as 10 milhões de referências.

Além de endereços que armazenavam material pirateado, sites pornográficos e fóruns extremistas também serviram de referência para a construção da C4, embora seus desenvolvedores afirmem que usaram filtros para retirar conteúdo ofensivo.

O Google foi procurado pela reportagem desde o dia 18, por email e telefone. Nesta quarta-feira (26), respondeu que está comprometido em desenvolver IA de maneira responsável. "Em 2018, o Google foi uma das primeiras empresas a publicar um conjunto de princípios de inteligência artificial." Esse material cita regras para nortear as pesquisas da empresa.

"Continuamos a fornecer educação e recursos para nossos pesquisadores, fazemos parceria com governos e organizações externas para desenvolver padrões e práticas recomendadas e trabalhamos com comunidades e especialistas para tornar a IA segura e útil", afirma o gigante das buscas.

Também questionada desde o dia 18, a Meta não se pronunciou.

A reportagem do Washington Post ainda encontrou dados de votação de eleitores do Colorado (40º lugar) e da Florida (73º lugar). Esses dados são públicos, mas sob tratamento malicioso podem representar risco aos portadores, e desrespeitar leis de proteção de dados pessoais nos EUA e no Brasil.

O treinamento de inteligências artificiais inclui diversas fontes como a C4. No desenvolvimento do GPT-3, tecnologia fundamental no desenvolvimento da IA geradora de texto ChatGPT, a startup OpenAI usou 40 vezes mais dados do que o disponível na base de dados do Google.

A OpenAI não revelou a quantidade de dados usada para treinar o GPT-4, modelo de inteligência artificial mais recente da startup, que tem apoio da Microsoft. O público está às escuras sobre as fontes usadas para treinar a tecnologia de mais sucesso entre as IAs geradoras.

Jornais, artistas e escritores têm contestado o uso sem consentimento de suas obras para treinar modelos de inteligência artificial. A emissora de jornalismo CNN e o jornal The Wall Street Journal publicaram artigos em defesa do pagamento de direitos autorais para desenvolver essa tecnologia.

A principal fonte do C4 é o repositório do Google de patentes solicitadas ao redor do mundo —Google Patents.

A base também armazena dados de 500 mil blogs pessoais e de campanhas de financiamento publicadas em sites de vaquinha, como Kickstarter e Patreon. Esses materiais podem tornar a IA mais eficiente em escrever textos publicitários, área em que já vem sendo aplicada.

Stockimg.AI gera ilustrações para capas de livros, pôsteres, papeis de parede, logos e artes. Reprodução/

AgentGPT, ainda em fase beta, permite criar um agente autônomo de inteligência artificial . Reprodução/

O ChatPDF sintetiza informações de documentos em formato .pdf . Reprodução/

O Desktopus cria slides para apresentações em poucos segundos . Reprodução/

Ferramenta Monica é uma assistente de inteligência artificial para o navegador Chrome . Reprodução/

A Poised ajuda o usuário a se preparar para entrevistas de emprego e falar em público. Reprodução/

A Sheet+ transforma documentos de texto em planilhas. Reprodução/

O 10Web facilita a tarefa de criar sites . Reprodução/

Receba notícias da Folha

Cadastre-se e escolha quais newsletters gostaria de receber

Ativar newsletters

Relacionadas

Principais do dia

Chuvas no Sul

Volta a chover em Porto Alegre, e prefeitura interrompe resgate das vítimas

Piora nas condições climáticas fez prefeitura ordenar a paralisação do movimento de barcos

8.mai.2024 às 14h45

Como É Que É?

Quais são os impactos do desmate no cerrado?

Priscila Camazano recebe a repórter Jéssica Maes nesta quarta-feira (8)

8.mai.2024 às 7h00

copom

BC reduz ritmo e corta Selic em 0,25 ponto, para 10,50% ao ano

Parte do mercado financeiro esperava corte maior, que havia sido sinalizado pelo BC em março

8.mai.2024 às 18h34