A chegada do ChatGPT chamou a atenção para o campo da IA (inteligência artificial) e abriu a porteira para outros sistemas semelhantes, da categoria LLM (sigla em inglês para "grande modelo de linguagem").
Trata-se de um campo da IA que usa as técnicas mais evoluídas disponíveis para aprender padrões da linguagem humana e reproduzi-los. É alimentado com bilhões de textos para detectar como encadear palavras de uma forma semelhante a uma pessoa.
No caso do ChatGPT, esse sistema foi incorporado a um mecanismo de bate-papo. O usuário faz uma pergunta ou pede alguma coisa e, usando seu LLM, a máquina responde.
Para Rune Nyrup, filósofo especializado em IA para tomada de decisão, as falas convincentes podem levar a conclusões equivocadas, dando uma ideia de uma competência que o sistema não tem.
Nyrup é pesquisador do Centro Leverhulme para o Futuro da Inteligência, da Universidade Cambridge, e tem doutorado pela Universidade Durham (ambas na Inglaterra).
O especialista pede mais transparência para que as pessoas entendam as falhas dos sistemas de IA antes de usá-los, e recomenda cautela na adoção.
Um dos usos para o ChatGPT é orientações para tarefas, que podem levar a um caminho equivocado. Quando esses sistemas são um problema para a tomada de decisão? O problema é que você não pode garantir a precisão. A lógica do sistema é que ele tenta prever qual seria a frase mais parecida com a de um humano: a sequência de palavras mais provável dada a informação que foi inserida como entrada [a pergunta]. É um modelo de previsão estatística, tentando reproduzir padrões encontrados em grande parte na internet pública, ou seja, não foi construído para pensar na precisão das informações. Foi feito para reproduzir linguagem de forma convincente.
Um dos casos foi o Stack Overflow [site onde programadores trocam informações] banir respostas usando o GPT. Pessoas podem estar ali pensando em soluções para desenvolver softwares críticos, então é bem problemático você ter uma solução que, de cara, parece muito plausível, mas não é.
A questão aqui não é que ele erra com uma frequência maior do que humanos. O problema é que, quando isso acontece, vem de forma surpreendente. É muito diferente do erro que você esperaria de um humano, o que deixa ele mais difícil de detectar.
Como os erros do ChatGPT podem ser diferentes dos de humanos? Há um exemplo de alguém que pediu para ele descrever uma cena assustadora de forma sutil e a resposta foi algo do tipo ‘a cena era escura de um jeito sutil que levava as coisas a serem assustadoras’. Ou seja, ele fala em algo sutil em vez de descrever a cena sutilmente. É um erro que um humano com competência de comunicação do nível do ChatGPT jamais cometeria. O sistema está procurando padrões no texto, então ele não entende conceitos, no caso gerar algo sutil. Isso acontece de uma forma esquisita, e é um buraco na precisão do modelo que é simplesmente muito difícil de prever. Então como as pessoas poderiam antecipar essas falhas?
Os erros dos LLM podem influenciar nas decisões ao buscar instruções específicas? Digamos que eu peça instruções para cozinhar um ovo, e ele mande quebrá-lo antes de colocar na água. É algo que pode levar a um erro? Sim, porque ele é otimizado para ser convincente. No exemplo do ovo, talvez você nem leia direito a parte que ele explica como cozinhar o ovo porque todos sabem como fazer isso. Você procuraria erros em coisas como a quantidade de sal que está sendo indicada, porque temos um modelo mental focado em procurar os tipos de erros que humanos cometeriam.
Esse é só um exemplo simples para uma receita, mas imagine alguém usando isso para uma decisão crítica, como programar um código que controla uma usina de energia. São processos que não se baseiam apenas em ter baixos índices de falhas. Dependem de ter sistemas de segurança para que, caso um erro ocorra, seja detectado. Por isso, mesmo que se, na média, a precisão das respostas geradas por essas IA é alta, também importa onde os erros estão sendo cometidos.
A inteligência artificial não ter habilidades como empatia pode reverberar nos humanos? Depende do contexto e como as coisas são pedidas. Você pode pedir para escrever uma análise de um restaurante dizendo que a comida não era muito boa, ou então pedir uma análise dizendo que a comida não era boa, mas como você gosta do dono do local, escrever algo positivo apesar disso. Talvez na resposta saia algo decente. A questão não é a empatia da máquina, mas a resposta respeitar as instruções explícitas. E aí depende de como vai usar. Você vai simplesmente copiar e colar o texto sem nem olhar para ele? Ou pelo menos daria uma lida para checar se tem o tom correto?
Aqui estamos falando de algo com baixo risco, mas pense em algo onde a segurança é fundamental. Penso muito na área médica e, aí, seria bom ter uma espécie de sistema de segurança junto.
As respostas das máquinas não têm influência sobre o que decidem os humanos? Não há uma tendência a concordar com o que diz o robô? Sim, é o chamado viés de automação. Nosso processo cognitivo é projetado para economizar energia, então, se há um atalho para resolver um problema, nosso padrão é usar o atalho. Ou seja, se tem um sistema dizendo ‘faça X’, nosso padrão seria seguir isso. É um risco que existe.
Há, no entanto, formas de atuar em que a máquina não está realmente produzindo uma segunda opinião. Ela pode simplesmente colocar informações relevantes para o processo de tomada de decisão. No caso médico, é lembrar a pessoa de certas coisas, como sugerir um diagnóstico que seria comum se alguém apresentar sintomas específicos, mas que é raro no geral (o que pode fazer com que o profissional deixe passar batido). Ou então sugerir uma lista de três testes a fazer. Uma atuação que não compete com a tomada de decisão humana, mas adiciona informações novas.
De quem deve ser a responsabilidade ao usar esses LLM? As empresas que fazem, como a OpenAI, devem ser mais transparentes com a precisão, ou as pessoas que usam devem ser responsáveis pela aplicação que dão ao sistema, ou é um dever compartilhado? Claramente, a empresa que produz esse tipo de IA para propósitos mais generalistas tem uma grande responsabilidade porque está na melhor posição para fazer essas checagens da qualidade. Como seria possível responsabilizar o usuário final se ele não tem nenhuma forma de melhorar as coisas? Ele está amarrado ao produto que é dado e só pode escolher confiar ou não. Atribuir responsabilidade ao usuário é tirá-la de outros.
Deveria ser a OpenAI, ou quem mais esteja desenvolvendo essas LLMs de propósito geral, a ter pelo menos uma transparência das evidências sobre a robustez dos sistemas. Se alguém comprasse o sistema e o treinasse para um uso específico, também teria responsabilidade de checar a qualidade nesse domínio. Idealmente, teria ferramentas da própria fornecedora do sistema geral para ajudar nessa tarefa.
O sr. acha que estamos lançando tecnologias de inteligência artificial rápido ou cedo demais? Até agora, não vi ninguém usar na prática muito cedo em algo que é crítico para a segurança. Mas elas certamente serão aplicadas nesses contextos, então há motivos para se preocupar para o futuro.
O que pode ser feito para melhorar tecnologias de inteligência artificial? O principal é não tratar IA de forma diferente de outras coisas. Não assuma que, por estar usando IA, pode ignorar requisitos de segurança para a sua área de atuação. Além disso, precisamos ser particularmente cuidadosos em qualquer coisa que dependa de seres humanos para encontrar erros.
Em coisas práticas, devemos pedir a reguladores e legisladores não criarem atalhos para empresas de tecnologia só porque dizem estar usando uma IA muito avançada. Não devemos reduzir nossos padrões de segurança e não podemos tolerar gente dizendo que algo é complexo demais para entender. Se você não entende sua tecnologia, não deveria usá-la em algo que não tolera erros.
A base do pensamento é: se em uma determinada área certos erros ou práticas não são aceitáveis sem uso de IA, também não são aceitáveis com uso de IA. Se é inaceitável usar imagens falsas para ilustrar uma notícia, também é inaceitável se ela for usada com IA. É usar a moral que já tínhamos: as regras da sociedade não podem ser jogadas pela janela só porque estamos usando IA.
RAIO-X
Rune Nyrup, 36, é um filósofo que pesquisa questões éticas e epistêmicas com o uso de sistemas de IA para automatizar o processo de tomada de decisão. Seu foco é entender como transparência pode ser relevante para gerenciar os vieses do processo. Ele atua no Centro Leverhulme para o Futuro da Inteligência e no departamento de História e Filosofia da Ciência da Universidade Cambridge (Inglaterra). Antes disso, fez doutorado na Universidade Dunham (Inglaterra).
Comentários
Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.