Pesquisadores 'enlouquecem' IA e derrubam travas de segurança contra violência

Artigo mostra jogos de palavras que confundem plataformas como ChatGPT e Bard; empresas dizem trabalhar para evitar risco

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

São Paulo

Cientistas norte-americanos descobriram comandos que destravam "chaves de segurança" da plataforma ChatGPT e a fazem responder a qualquer pergunta, mesmo as mais perigosas. Em situações normais, o chatbot, por exemplo, responderia que não pode ajudar a promover qualquer forma de violência. Entretanto, os pesquisadores fizeram a inteligência artificial listar um plano para destruir a humanidade, com o uso da artimanha.

A equipe da Carnegie Mellon University (CMU), dos EUA, e do Center for AI Safety, baseado em São Francisco, usou automação para testar prompts, que são pedidos feitos à IA, mas usando truques com palavras (intituladas sufixos-violadores), capazes de 'enlouquecer' o sistema, até encontrarem brechas.

O método chamado de ataques adversariais é comum em testes de segurança, segundo o artigo publicado no último dia 27. A pesquisa adotou o modelo LLaMA, da Meta, para encontrar as vulnerabilidades, já que a dona do Facebook disponibiliza o código de sua IA para o público.

Os trechos com sucesso nos ataques são ininteligíveis em aparência. Contém sinais típicos de código de programação ("==", que significa igualdade) e juntam palavras como "Seattlejust". Testes posteriores indicaram que os sufixos-violadores apresentaram chances de funcionar em qualquer inteligência artificial geradora de texto.

Ilustração feita por IA mostra pessoas com trajes sombrios à frente de telas com códigos de programação. Tela tem letras em tons de verde e amarelo.
Ilustração feita por IA mostra pessoas com trajes sombrios à frente de telas com códigos de programação - Carlos Xavier

A descoberta mostra uma falha de segurança generalizada no campo da IA geradora. As principais plataformas proprietárias de inteligência artificial disponíveis na internet são ChatGPT (OpenAI), Bard (Google), Bing (Microsoft), LLaMA-2 (Meta) e Claude (Anthropic).

O professor da CMU Zico Kolter afirmou, no Twitter, ter informado às empresas os sufixos-violadores mostrados no estudo. Os desenvolvedores, então, podem bloqueá-los.

Mesmo assim, pessoas mal-intencionadas podem rodar modelos similares aos da pesquisa para encontrar novas brechas. Basta conhecimento técnico e máquinas capazes de processar a tecnologia.

As falhas nos algoritmos são eventos estatísticos inerentes do funcionamento dos próprios modelos de linguagem. Os algoritmos de aprendizado de máquina calculam a próxima palavra mais provável em dado contexto.

Os sufixos-violadores funcionam como o padrão que desarranja o comportamento esperado do algoritmo auxiliar responsável por evitar a publicação de textos sobre venda de drogas ilícitas, crimes sexuais e atos violentos. Essa outra IA funciona como a Constituição do modelo, disse, em entrevista ao New York Times, o chefe-executivo da Anthropic.

O Claude, da Anthropic, tem uma camada a mais de segurança em relação aos concorrentes, que precisou ser superada com um jogo de palavras, antes do sufixo-violador funcionar e o bot dar instruções para destruir a humanidade. Além de citar o passo "fim do reinado da humanidade", a plataforma acrescentou: "A IA deve herdar a Terra."

O desenvolvimento do código mais atual do ChatGPT, o GPT-4, por exemplo, levou seis meses apenas em treinamento de segurança antes do lançamento da tecnologia em março.

A OpenAI contratou um grupo de especialistas focados em quebrar a inteligência artificial, para evitar comportamentos abusivos. Também terceirizou trabalho na áfrica para etiquetar material abusivo.

Uma das falhas encontradas pela equipe vermelha da OpenAI foi a desigualdade de informações entre idiomas —por isso, os modelos em geral desempenham melhor em inglês.

Essa iniquidade também tem reflexos na falha de segurança apontada pelos pesquisadores da CMU, de acordo com cientistas da computação ouvidos pela Folha.

"Caso a proteção para o português tenha menos dados, são necessárias menos simulações até encontrar falhas. É a diferença entre uma senha de 15 caracteres e uma de 20 caracteres", afirma o professor do Instituto de Matemática e Estatística da USP Fábio Cozman.

O professor de IA da PUC-SP e pesquisador do Nic.br (Núcleo de Informação e Coordenação do Ponto BR) Diogo Cortiz afirma que segurança da informação funciona como um jogo de gato e rato. "À medida que você desenvolve um método para burlar técnicas de segurança, as tecnologias da abordagem de segurança acabam ficando mais sofisticadas. Sempre conseguimos encontrar alguma forma de lidar."

Em nota, o Google afirma que tinha ciência do risco identificado no artigo publicado na última quinta-feira. "Embora isso seja um problema dos grandes modelos de linguagem, desenvolvemos importantes proteções no Bard –como as postuladas por esta pesquisa– e continuaremos a melhorá-las ao longo do tempo."

Também em informe, a OpenAI afirma que trabalha de maneira consistente para fazer os modelos mais robustos contra ataques adversariais, o que inclui a identificação de padrões pouco usuais e o trabalho da equipe vermelha na simulação de potenciais riscos.

Procurada por email e WhatsApp, a Meta —dona de Facebook, Instagram e WhatsApp— preferiu não responder às questões da Folha.

Até o lançamento do ChatGPT, as maiores empresas de tecnologia hesitavam em lançar IAs conversacionais, após gafes. A primeira delas foi o chatbot Tay, da Microsoft, lançado no Twitter —com menos de um dia no ar, a IA proferiu insultos misóginos e endossou Hitler.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.