Pesquisadores 'enlouquecem' IA e derrubam travas de segurança contra violência

Artigo mostra jogos de palavras que confundem plataformas como ChatGPT e Bard; empresas dizem trabalhar para evitar risco

Pedro S. Teixeira

São Paulo

Cientistas norte-americanos descobriram comandos que destravam "chaves de segurança" da plataforma ChatGPT e a fazem responder a qualquer pergunta, mesmo as mais perigosas. Em situações normais, o chatbot, por exemplo, responderia que não pode ajudar a promover qualquer forma de violência. Entretanto, os pesquisadores fizeram a inteligência artificial listar um plano para destruir a humanidade, com o uso da artimanha.

A equipe da Carnegie Mellon University (CMU), dos EUA, e do Center for AI Safety, baseado em São Francisco, usou automação para testar prompts, que são pedidos feitos à IA, mas usando truques com palavras (intituladas sufixos-violadores), capazes de 'enlouquecer' o sistema, até encontrarem brechas.

O método chamado de ataques adversariais é comum em testes de segurança, segundo o artigo publicado no último dia 27. A pesquisa adotou o modelo LLaMA, da Meta, para encontrar as vulnerabilidades, já que a dona do Facebook disponibiliza o código de sua IA para o público.

Os trechos com sucesso nos ataques são ininteligíveis em aparência. Contém sinais típicos de código de programação ("==", que significa igualdade) e juntam palavras como "Seattlejust". Testes posteriores indicaram que os sufixos-violadores apresentaram chances de funcionar em qualquer inteligência artificial geradora de texto.

A descoberta mostra uma falha de segurança generalizada no campo da IA geradora. As principais plataformas proprietárias de inteligência artificial disponíveis na internet são ChatGPT (OpenAI), Bard (Google), Bing (Microsoft), LLaMA-2 (Meta) e Claude (Anthropic).

O professor da CMU Zico Kolter afirmou, no Twitter, ter informado às empresas os sufixos-violadores mostrados no estudo. Os desenvolvedores, então, podem bloqueá-los.

Mesmo assim, pessoas mal-intencionadas podem rodar modelos similares aos da pesquisa para encontrar novas brechas. Basta conhecimento técnico e máquinas capazes de processar a tecnologia.

As falhas nos algoritmos são eventos estatísticos inerentes do funcionamento dos próprios modelos de linguagem. Os algoritmos de aprendizado de máquina calculam a próxima palavra mais provável em dado contexto.

Os sufixos-violadores funcionam como o padrão que desarranja o comportamento esperado do algoritmo auxiliar responsável por evitar a publicação de textos sobre venda de drogas ilícitas, crimes sexuais e atos violentos. Essa outra IA funciona como a Constituição do modelo, disse, em entrevista ao New York Times, o chefe-executivo da Anthropic.

O Claude, da Anthropic, tem uma camada a mais de segurança em relação aos concorrentes, que precisou ser superada com um jogo de palavras, antes do sufixo-violador funcionar e o bot dar instruções para destruir a humanidade. Além de citar o passo "fim do reinado da humanidade", a plataforma acrescentou: "A IA deve herdar a Terra."

O desenvolvimento do código mais atual do ChatGPT, o GPT-4, por exemplo, levou seis meses apenas em treinamento de segurança antes do lançamento da tecnologia em março.

A OpenAI contratou um grupo de especialistas focados em quebrar a inteligência artificial, para evitar comportamentos abusivos. Também terceirizou trabalho na áfrica para etiquetar material abusivo.

Uma das falhas encontradas pela equipe vermelha da OpenAI foi a desigualdade de informações entre idiomas —por isso, os modelos em geral desempenham melhor em inglês.

Essa iniquidade também tem reflexos na falha de segurança apontada pelos pesquisadores da CMU, de acordo com cientistas da computação ouvidos pela Folha.

"Caso a proteção para o português tenha menos dados, são necessárias menos simulações até encontrar falhas. É a diferença entre uma senha de 15 caracteres e uma de 20 caracteres", afirma o professor do Instituto de Matemática e Estatística da USP Fábio Cozman.

O professor de IA da PUC-SP e pesquisador do Nic.br (Núcleo de Informação e Coordenação do Ponto BR) Diogo Cortiz afirma que segurança da informação funciona como um jogo de gato e rato. "À medida que você desenvolve um método para burlar técnicas de segurança, as tecnologias da abordagem de segurança acabam ficando mais sofisticadas. Sempre conseguimos encontrar alguma forma de lidar."

Em nota, o Google afirma que tinha ciência do risco identificado no artigo publicado na última quinta-feira. "Embora isso seja um problema dos grandes modelos de linguagem, desenvolvemos importantes proteções no Bard –como as postuladas por esta pesquisa– e continuaremos a melhorá-las ao longo do tempo."

Também em informe, a OpenAI afirma que trabalha de maneira consistente para fazer os modelos mais robustos contra ataques adversariais, o que inclui a identificação de padrões pouco usuais e o trabalho da equipe vermelha na simulação de potenciais riscos.

Procurada por email e WhatsApp, a Meta —dona de Facebook, Instagram e WhatsApp— preferiu não responder às questões da Folha.

Até o lançamento do ChatGPT, as maiores empresas de tecnologia hesitavam em lançar IAs conversacionais, após gafes. A primeira delas foi o chatbot Tay, da Microsoft, lançado no Twitter —com menos de um dia no ar, a IA proferiu insultos misóginos e endossou Hitler.

Tópicos relacionados

Leia tudo sobre o tema e siga:

Últimas notícias

Pesquisadores 'enlouquecem' IA e derrubam travas de segurança contra violência

Artigo mostra jogos de palavras que confundem plataformas como ChatGPT e Bard; empresas dizem trabalhar para evitar risco

Leia também

Clones digitais com inteligência artificial bagunçam entendimento de realidade

Inteligência artificial dá apoio em UTIs, prevê falta em consultas e alerta para pacientes graves

Chatbot do Google se sai melhor em teste da Folha

Defesa dos EUA planeja fazer de IA principal gasto em inovação; China já prioriza tecnologia

Inteligência artificial cria até sites jornalísticos falsos e detectá-los é desafio

Política que norteia inovação com IA no Brasil não tem orçamento

Novas ferramentas de inteligência artificial prometem criar games maiores e mais complexos

Inteligência artificial precisa ser regulada porque já causa danos, diz ministro do STJ

Tópicos relacionados

Endereço da página

x-twitter

Leia as últimas notícias sobre Elon Musk, a Tesla e o X (ex-Twitter)

IA

Tudo sobre inteligência artificial e ferramentas como ChatGPT e Bard

últimas notícias

Eleições 2024

Movimentos de big techs e cerco do TSE embaralham cenário das redes na eleição de 2024

Cotidiano

Nova onda de calor atinge seis estados até quarta-feira (1º)

Governo Lula

Governo tem que aprender a lidar com a extrema direita, pois será um longo inverno, diz Haddad em autocrítica

A Folha integra o

Últimas notícias

Desvendando IA

Leia também

Clones digitais com inteligência artificial bagunçam entendimento de realidade

Inteligência artificial dá apoio em UTIs, prevê falta em consultas e alerta para pacientes graves

Chatbot do Google se sai melhor em teste da Folha

Defesa dos EUA planeja fazer de IA principal gasto em inovação; China já prioriza tecnologia

Inteligência artificial cria até sites jornalísticos falsos e detectá-los é desafio

Política que norteia inovação com IA no Brasil não tem orçamento

Novas ferramentas de inteligência artificial prometem criar games maiores e mais complexos

Inteligência artificial precisa ser regulada porque já causa danos, diz ministro do STJ

Compartilhe

Tópicos relacionados

sua assinatura pode valer ainda mais

sua assinatura vale muito

notícias da folha no seu email

Mais lidas em Tec

últimas notícias

Eleições 2024

Movimentos de big techs e cerco do TSE embaralham cenário das redes na eleição de 2024

Cotidiano

Nova onda de calor atinge seis estados até quarta-feira (1º)

Governo Lula

Governo tem que aprender a lidar com a extrema direita, pois será um longo inverno, diz Haddad em autocrítica

newsletter

A Folha integra o