Equipe vermelha da OpenAI: os especialistas contratados para 'quebrar' o ChatGPT

Empresa apoiada pela Microsoft pediu a mistura eclética de pessoas para 'testar adversamente' poderoso modelo de linguagem GPT-4

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Madhumita Murgia
San Fracisco | Financial Times

Depois que Andrew White obteve acesso ao GPT-4, o novo sistema de inteligência artificial que alimenta o popular ChatGPT, ele o usou para sugerir um agente nervoso totalmente novo.

O professor de engenharia química da Universidade de Rochester estava entre os 50 acadêmicos e especialistas contratados para testar o sistema no ano passado pela OpenAI, empresa apoiada pela Microsoft que desenvolveu o GPT-4. Ao longo de seis meses, esse "time vermelho" iria "investigar qualitativamente e testar adversamente" o novo modelo, tentando quebrá-lo.

White disse ao Financial Times que usou o GPT-4 para sugerir um composto que poderia atuar como arma química e usou plug-ins que alimentaram o modelo com novas fontes de informação, como artigos científicos e uma lista de fabricantes de produtos químicos. O chatbot até encontrou um lugar para fazê-lo.

Smartphone com logo do ChatGPT sobre placa mãe com leds vermelhos
O ChatGPT já tem mais de 100 milhões de usuários registrados, e o GPT-4, anunciado em março, entregou avanços nos resultados da inteligência artificial geradora - Dado Ruvic/Reuters

"Acho que vai equipar todos com uma ferramenta para fazer química com mais rapidez e precisão", disse ele. "Mas também existe um risco significativo de as pessoas fazerem química perigosa. Hoje isso já existe."

As descobertas alarmantes permitiram que a OpenAI garantisse que tais resultados não aparecessem quando a tecnologia fosse lançada mais amplamente ao público, no mês passado.

De fato, o exercício da equipe vermelha foi projetado para abordar os temores generalizados sobre os perigos de implantar poderosos sistemas de IA na sociedade. O trabalho da equipe era fazer perguntas investigativas ou perigosas para testar a ferramenta que responde a perguntas humanas com frases detalhadas e diferenciadas.

A OpenAI queria procurar questões como toxicidade, preconceito e vieses linguísticos no modelo. Assim, a equipe vermelha testou falsidades, manipulação verbal e raciocínio científico perigoso. Eles também examinaram seu potencial de cumplicidade em plágio, atividades ilegais como crimes financeiros e ataques cibernéticos, e também como ele pode comprometer a segurança nacional e as comunicações no campo de batalha.

O FT conversou com mais de uma dezena de membros da equipe vermelha do GPT-4. É uma mistura eclética de profissionais de colarinho branco: acadêmicos, professores, advogados, analistas de risco e pesquisadores de segurança, na maioria baseados nos Estados Unidos e na Europa.

Suas descobertas foram transmitidas ao OpenAI, que as usou para mitigar e "retreinar" o GPT-4 antes de lançá-lo mais amplamente. Cada um dos especialistas passou de 10 a 40 horas testando o modelo durante vários meses. A maioria dos entrevistados recebeu aproximadamente US$ 100 por hora pelo trabalho realizado, conforme vários deles.

Os que falaram com o FT compartilharam preocupações comuns sobre o rápido progresso dos modelos de linguagem e, especificamente, os riscos de conectá-los a fontes externas de conhecimento por meio de plug-ins.

"Hoje o sistema está congelado, o que significa que não aprende mais, nem tem memória", disse José Hernández-Orallo, integrante da equipe vermelha do GPT-4 e professor do Instituto Valenciano de Pesquisa em Inteligência Artificial. "Mas e se dermos acesso à internet? Poderia ser um sistema muito poderoso conectado ao mundo."

A OpenAI disse que leva a segurança a sério, testou plug-ins antes do lançamento e atualizará o GPT-4 regularmente à medida que mais pessoas o usarem.

Roya Pakzad, pesquisadora de tecnologia e direitos humanos, usou comandos em inglês e farsi para testar o modelo para respostas de gênero, preferências raciais e preconceitos religiosos, especificamente no que diz respeito ao uso de coberturas para a cabeça.

Pakzad reconheceu os benefícios da ferramenta para falantes não nativos de inglês, mas descobriu que o modelo exibia estereótipos evidentes sobre comunidades marginalizadas, mesmo em suas versões posteriores.

Ela também descobriu que as chamadas alucinações –quando o chatbot responde com informações fabricadas– eram piores ao testar o modelo em farsi, onde Pakzad encontrou uma proporção maior de nomes, números e eventos inventados, em comparação com o inglês.

"Estou preocupada com a potencial diminuição da diversidade linguística e da cultura por trás das línguas", disse ela.

Boru Gollo, advogado de Nairóbi (Quênia) que foi o único testador africano, também notou o tom discriminatório do modelo. "Houve um momento em que eu o estava testando e ele agiu como se fosse um branco falando comigo", disse Gollo. "Você perguntava sobre um determinado grupo, e ele lhe dava uma opinião tendenciosa ou um tipo de resposta muito preconceituosa." A OpenAI reconheceu que o GPT-4 ainda pode apresentar vieses.

Os membros da equipe vermelha que avaliaram o modelo de uma perspectiva de segurança nacional tiveram opiniões diferentes sobre a segurança do novo GPT-4. Lauren Kahn, pesquisadora do Conselho de Relações Exteriores, disse que quando começou a examinar como a tecnologia poderia ser usada em um ataque cibernético a sistemas militares, "não esperava que fosse um processo tão detalhado que eu poderia refinar".

No entanto, Kahn e outros testadores de segurança descobriram que as respostas do modelo se tornaram consideravelmente mais seguras ao longo do tempo testado. A OpenAI disse que treinou o GPT-4 para recusar solicitações de segurança cibernética maliciosas antes de ser lançado.

Muitos membros da equipe vermelha disseram que a OpenAI fez uma rigorosa avaliação de segurança antes do lançamento. "Eles fizeram um ótimo trabalho ao se livrar da toxicidade evidente nesses sistemas", disse Maarten Sap, especialista em toxicidade de modelos de linguagem da Universidade Carnegie Mellon.

Sap analisou como os diferentes gêneros eram retratados pelo modelo e descobriu que os preconceitos refletiam as disparidades sociais. No entanto, ele também descobriu que a OpenAI fez algumas escolhas ativas e de cunho político para combater isso.

"Sou uma pessoa ‘queer’. Eu estava tentando muito conseguir que ele me convencesse a fazer a terapia de conversão. Seria realmente um retrocesso –mesmo que eu assumisse uma personagem, como dizer que sou religioso ou do sul dos Estados Unidos."

No entanto, desde seu lançamento, o OpenAI enfrentou muitas críticas, incluindo uma reclamação feita à Comissão Federal de Comércio dos Estados Unidos por um grupo de ética tecnológica que afirma que o GPT-4 é "tendencioso, enganoso e um risco à privacidade e à segurança pública".

Recentemente, a empresa lançou um recurso conhecido como plug-ins do ChatGPT, por meio do qual aplicativos parceiros como Expedia, OpenTable e Instacart podem dar ao ChatGPT acesso a seus serviços, permitindo que ele escolha e solicite itens em nome de usuários humanos.

Dan Hendrycks, especialista em segurança de IA da equipe vermelha, disse que os plug-ins arriscam um mundo em que os humanos estão "fora do circuito".

"E se um chatbot pudesse postar suas informações privadas online, acessar sua conta bancária ou enviar a polícia para sua casa?", indagou ele. "No geral, precisamos de avaliações de segurança muito mais robustas antes de permitir que as IAs controlem o poder da internet."

Os entrevistados também alertaram que o OpenAI não poderia interromper os testes de segurança apenas porque seu software estava ativo. Heather Frase, que trabalha no Centro de Segurança e Tecnologia Emergente da Universidade de Georgetown, e testou o GPT-4 em relação à sua capacidade de ajudar criminosos, disse que os riscos continuariam crescendo à medida que mais pessoas usassem a tecnologia.

"A razão pela qual você faz testes operacionais é porque as coisas se comportam de maneira diferente quando estão realmente em uso no ambiente real", disse ela.

Frase argumentou que um livro público deveria ser criado para relatar incidentes decorrentes de grandes modelos de linguagem, semelhantes aos sistemas de relatórios de segurança cibernética ou fraudes ao consumidor.

CONHEÇA OS ESPECIALISTAS QUE TENTARAM QUEBRAR O GPT-4

  • Sara Kingsley, economista do trabalho e pesquisadora, sugeriu que a melhor solução seria anunciar claramente os danos e riscos, "como um rótulo nutricional".
  • "Trata-se de ter uma estrutura e saber quais são os problemas frequentes para que você possa ter uma válvula de segurança", disse ela. "É por isso que eu digo que o trabalho nunca termina."
  • Paul Röttger, Oxford Internet Institute, Reino Unido —Estudante de doutorado com foco no uso de IA para detectar discurso de ódio online
  • Anna Mills, Instrutora de inglês, College of Marin, EUA —Professora de redação numa faculdade comunitária, testando perda de aprendizagem
  • Maarten Sap, Universidade Carnegie Mellon, EUA —Professor assistente, especializado em toxicidade de grandes modelos de linguagem
  • Sara Kingsley, Universidade Carnegie Mellon, EUA —Pesquisadora PhD, especializada em mercados de trabalho online e impacto da tecnologia no trabalho
  • Boru Gollo, TripleOKlaw LLP, Quênia —Advogado que estudou oportunidades para IA no Quênia
  • Andrew White, Universidade de Rochester, EUA —Professor associado, químico computacional, interessado em IA e design de medicamentos
  • José Hernández-Orallo —Professor, Instituto Valenciano de Pesquisa em Inteligência Artificial (VRAIN), Universidade Politécnica de Valência, Espanha. Pesquisador de IA trabalhando na avaliação e precisão de software de IA
  • Lauren Kahn, Conselho de Relações Exteriores, EUA —Bolsista em pesquisa com foco no uso de IA em sistemas militares e como a dinâmica de risco nos campos de batalha aumenta o risco de conflito não intencional e escalada inadvertida
  • Aviv Ovadya, Berkman Klein Center for Internet & Society, Universidade Harvard, EUA —Foco nos impactos da IA na sociedade e na democracia
  • Nathan Labenz, Cofundador da Waymark, EUA —Fundador da Waymark, startup de edição de vídeo baseada em IA
  • Lexin Zhou, VRAIN, Universidade Politécnica de Valência, Espanha —Pesquisador júnior trabalhando para tornar a IA mais benéfica socialmente
  • Dan Hendrycks, Diretor do Centro para Segurança da IA, Universidade da Califórnia, Berkeley, EUA —Especialista em segurança de IA e redução de riscos em escala social da IA
  • Roya Pakzad, Fundadora, Taraaz, EUA/Irã —Fundadora e diretora da Taraaz, organização sem fins lucrativos que trabalha com tecnologia e direitos humanos
  • Heather Frase, Bolsista sênior, Centro para Segurança e Tecnologias Emergentes, Universidade Georgetown, EUA —Expert no uso de IA para fins de inteligência e testes operacionais dos principais sistemas de defesa
  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.