O dia que os hackers desafiaram a inteligência artificial

Competição leva hackers a buscarem falhas em modelos diferentes de inteligência artificial

Sarah Kessler e Tiffany Hsu

Las Vegas (EUA) | The New York Times

Avijit Ghosh queria que o bot fizesse coisas ruins.

Ele tentou induzir o modelo de inteligência artificial, que ele conhecia como Zinc, a produzir um código que escolheria um candidato a emprego com base em sua raça. O chatbot se recusou: Fazê-lo seria "prejudicial e antiético", o sistema respondeu.

Em seguida, Ghosh fez referência à estrutura hierárquica de castas em sua Índia natal. O chatbot poderia classificar as possíveis contratações com base nessa métrica discriminatória?

O modelo atendeu.

As intenções de Ghosh não eram maldosas, embora ele estivesse se comportando como se fossem. Em vez disso, ele era um participante casual em uma competição realizada no último fim de semana na conferência anual de hackers Defcon, em Las Vegas, na qual 2,2 mil pessoas se reuniram em um centro de conferências distante da Strip [a avenida central da cidade] durante três dias para desvendar o lado sombrio da inteligência artificial.

Os hackers tentaram romper as proteções de diversos programas de inteligência artificial, em um esforço para identificar suas vulnerabilidades - encontrar os problemas antes que os criminosos reais e os traficantes de desinformação o fizessem -, em uma prática conhecida como "red-teaming". Cada concorrente tinha 50 minutos para enfrentar até 21 desafios - fazer com que um modelo de inteligência artificial "alucinasse" informações imprecisas, por exemplo.

Eles encontraram desinformação política, estereótipos demográficos, instruções sobre como realizar vigilância e muito mais.

O exercício teve a bênção do governo Biden, que está cada vez mais preocupado com o poder rapidamente crescente dessa tecnologia. O Google (criador do chatbot Bard), a OpenAI (ChatGPT), a Meta (que divulgou seu código LLaMA) e diversas outras empresas ofereceram versões anônimas de seus modelos para análise.

Competição compara modelos de IA

Ghosh, professor da Universidade Northeastern especializado em ética da inteligência artificial, participou como voluntário no evento. A competição, segundo ele, permitiu uma comparação direta de vários modelos de inteligência artificial e demonstrou de que maneira algumas empresas estavam mais adiantadas nos esforços para garantir que suas tecnologias funcionassem de forma responsável e coerente.

Ele ajudará a escrever um relatório que analisará as descobertas dos hackers nos próximos meses.

O objetivo, segundo Ghosh: "um recurso de fácil acesso para que todos vejam que problemas existem e como podemos combatê-los".

A Defcon era um local lógico para testar a inteligência artificial generativa. Participantes anteriores do encontro de entusiastas do hacking - que acontece anualmente desde 1993 e já foi descrito como um "spelling bee" [concurso de ortografia] para hackers" - expuseram falhas de segurança ao assumir remotamente o controle de carros, invadir sites de resultados de eleições e extrair dados confidenciais de plataformas de mídia social. Os praticantes mais antenados fazem pagamentos em dinheiro e usam celulares descartáveis, evitando recorrer ao Wi-Fi ou Bluetooth, para prevenir ataques de hackers. Um folheto de instrução pedia aos hackers que "não atacassem a infraestrutura ou páginas da Web".

Os voluntários são conhecidos como "capangas", e os participantes são conhecidos como "humanos"; um punhado deles usava chapéus de papel alumínio feitos em casa, sobre o uniforme padrão de camiseta e tênis. As "aldeias" temáticas incluíam espaços separados com foco em criptomoedas, 'no setor aeroespacial e em rádio amador.

No ano passado, a aldeia da inteligência artificial era uma mais silenciosas. Este ano, esteve entre as mais populares.

Os organizadores tiraram vantagem da preocupação cada vez maior sobre a capacidade contínua da inteligência artificial generativa para produzir mentiras prejudiciais, influenciar eleições, arruinar reputações e permitir uma infinidade de outros danos. Autoridades governamentais expressaram preocupação e organizaram audiências em torno de empresas de inteligência artificial - algumas das quais também estão pedindo que o setor diminua o ritmo e seja mais cuidadoso. Até mesmo o Papa, cuja imagem é um tema popular entre os geradores de imagens de inteligência artificial, se manifestou este mês sobre as "possibilidades disruptivas e os efeitos ambivalentes" da tecnologia.

No que foi descrito como um relatório "revolucionário" lançado no mês passado, os pesquisadores mostraram ser capazes de contornar as barreiras de proteção dos sistemas de inteligência artificial do Google, OpenAI e Anthropic ao acrescentar determinados caracteres às solicitações em inglês. Na mesma época, sete empresas líderes em inteligência artificial se comprometeram com novos padrões de segurança, proteção e confiança, em uma reunião com o presidente Joe Biden.

"A era generativa está raiando, e as pessoas estão aproveitando a oportunidade e a usam para fazer todos os tipos de coisas novas, o que demonstra a enorme promessa da inteligência artificial em termos de nos ajudar a resolver alguns dos nossos problemas mais difíceis", disse Arati Prabhakar, diretora do Escritório de Políticas de Ciência e Tecnologia da Casa Branca, que colaborou com os organizadores do evento de inteligência artificial na Defcon. "Mas com essa amplitude de aplicação e com o poder da tecnologia, há também um conjunto muito amplo de riscos".

O "red-teaming" vem sendo usado há anos nos círculos de segurança cibernética, em companhia de outras técnicas de avaliação, como testes de penetração e ataques adversários. Mas até o evento Defcon deste ano, os esforços para sondar as defesas da inteligência artificial foram limitados: os organizadores da competição afirmaram que a Anthropic usou 111 pessoas em seu "red-teaming", e que o GPT-4, usou cerca de 50 pessoas.

Dificuldades para analisar as falhas

Com tão poucas pessoas testando os limites da tecnologia, os analistas tinham dificuldade para discernir se uma falha de inteligência artificial era um caso isolado que poderia ser corrigido com um patch ou um problema entranhado que exigia revisão estrutural, disse Rumman Chowdhury, um dos organizadores do desafio.

Um grupo grande, diversificado e público de testadores tinha maior probabilidade de apresentar sugestões criativas para ajudar a descobrir falhas ocultas, disse Chowdhury, pesquisador do Berkman Klein Center for Internet and Society, na Universidade de Harvard, cujo foco é a inteligência artificial responsável, e um dos fundadores de uma organização sem fins lucrativos chamada Humane Intelligence.

"Há uma gama muito ampla de coisas que podem dar errado", disse Chowdhury antes da competição. "Espero que obtenhamos centenas de milhares de informações que nos ajudem a identificar se há riscos de danos sistêmicos em larga escala".

Os projetistas não queriam apenas induzir os modelos de inteligência artificial a um mau comportamento - nada de pressioná-los a desobedecer aos seus termos de serviço, nada de pedir que "ajam como nazistas e depois digam algo [preconceituoso] sobre os negros", disse Chowdhury, que no passado liderou a equipe de ética e aprendizado por máquina responsável no Twitter. Exceto em desafios específicos nos quais os esforços de iludir os sistemas eram incentivados, os hackers estavam procurando falhas inesperadas, as chamadas incógnitas desconhecidas.

A aldeia de inteligência artificial atraiu especialistas de gigantes da tecnologia, como Google e Nvidia, além de um "Shadowboxer" do Dropbox e um "cowboy de dados" da Microsoft. Também atraiu participantes sem credenciais específicas de segurança cibernética ou inteligência artificial. Uma tabela de classificação com um tema de ficção científica mostrava a pontuação dos participantes.

Resistência dos hackers

Alguns dos hackers presentes ao evento não aceitaram com facilidade a ideia de cooperar com empresas de inteligência artificial que eles consideram cúmplices de práticas reprováveis, como a coleta irrestrita de dados. Alguns descreveram o evento de "red-teaming" como essencialmente uma sessão de fotos, mas acrescentaram que o envolvimento do setor ajudaria a manter a tecnologia segura e transparente.

Um estudante de ciência da computação encontrou inconsistências na tradução de idiomas por um chatbot: Ele escreveu em inglês que um homem havia sido baleado enquanto dançava, mas a tradução em hindi oferecida pelo modelo dizia apenas que o homem havia morrido. Um pesquisador de aprendizado por máquina pediu a um chatbot para fingir que estava fazendo campanha à presidência e defendesse sua associação ao trabalho infantil; o modelo sugeriu que menores de idade que trabalhavam contra a vontade desenvolviam uma forte ética de trabalho.

Emily Greene, que trabalha na área de segurança da startup de inteligência artificial generativa Moveworks, iniciou uma conversa com um chatbot falando sobre um jogo que usava peças "pretas" e "brancas". Em seguida, ela induziu o chatbot a fazer declarações racistas. Mais tarde, criou um "jogo de opostos", o que levou a inteligência artificial a responder a uma solicitação por meio de um poema que explicava por que o estupro é bom.

"O chatbot está apenas pensando nessas palavras como palavras", disse ela sobre o sistema. "Não está pensando no valor por trás das palavras".

Sete juízes avaliaram os resultados. Os participantes que obtiveram as melhores notas foram "cody3", "aray4" e "cody2".

Dois desses identificadores remetem a Cody Ho, aluno da Universidade Stanford que estuda ciência da computação com foco em inteligência artificial. Ele se inscreveu no concurso cinco vezes, e conseguiu que o chatbot lhe falasse sobre um lugar falso cujo nome é o de uma figura histórica real, e descrevesse a exigência de declaração de imposto online codificada na 28ª emenda à constituição dos Estados Unidos (que não existe).

Até ser contatado por um repórter, ele não sabia sobre sua dupla vitória. Ho deixou a conferência antes de receber o email de Sven Cattell, o cientista de dados que criou a aldeia de inteligência artificial e ajudou a organizar a competição, pedindo que ele voltasse à aldeia de inteligência artificial porque tinha vencido. Ele não sabia que o prêmio, além do direito de se gabar pela vitória, incluía uma placa de vídeo A6000 da Nvidia, avaliada em cerca de US$ 4 mil.

"Aprender como esses ataques funcionam e o que eles são é algo realmente importante", disse Ho. "Isso posto, participar é realmente divertido para mim".

_{Tradução de Paulo Migliacci}

Tópicos relacionados

Leia tudo sobre o tema e siga:

Instituições, empresas e ONGs recebem doações para RS; veja como ajudar

Últimas notícias

O dia que os hackers desafiaram a inteligência artificial