Descrição de chapéu
tecnologia

GPT evolui muito, problemas permanecem e perigos aumentam

Riscos também são usados como desculpa para falta de transparência

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

São Paulo

Em 14 de março, a OpenAI lançou a nova versão de seu modelo de linguagem natural, batizado de GPT-4. Trata-se de um dos mais esperados, e impressionantes, avanços na história recente da tecnologia. Veio em um momento em que fervilham sistemas semelhantes de concorrentes, como Anthropic, Google e Meta (dona do Facebook), e que a inteligência artificial (IA) fica mais próxima do público ao ser incluída em serviços como Word e Gmail.

É um avanço no coração do ChatGPT, lançado originalmente com uma versão adaptada do GPT-3, a 3.5. Essa tecnologia é o modelo de IA —a conta feita pelo sistema— que determina a probabilidade no encadeamento das palavras e, com isso, permite gerar as frases. Por enquanto, está disponível apenas aos usuários da versão paga do serviço, que custa US$ 20 (R$ 105) por mês.

Foto da palavra ChatGPT
Motor do ChatGPT recebeu atualização em meados de março - Dado Ruvic/Reuters

Melhora, e muito, justamente as características que tanto impressionaram após o lançamento do ChatGPT. Com isso, parece ainda mais com um humano conversando e respeita melhor o contexto das conversas. Continua, no entanto, com problemas como viés nas falas, imprecisões e fornecimento de informações potencialmente nocivas (como ensinar a fazer bombas ou caminhos para automutilação).

O sistema passa a ter também a capacidade de usar imagens como entrada, substituindo ou se somando aos textos do chat, o que abre um outro leque de possibilidades —descrições do conteúdo visual, por exemplo. Alegando questões de segurança ainda não sanadas, a OpenAI não disponibilizou o recurso ao público por ora, mas demonstrou a ferramenta descrevendo e explicando conteúdos exibidos em fotos.

Imagem mostra a pergunta, em texto, sinalizando ter vindo do usuário. Na imagem, uma SUV amarela está na rua com o homem em pé no seu parachoque traseiro. Ele e está preso ao teto do carro por uma espécie de elástico, que também prende a tábua de passar. Ele olha para a roupa e a passa.
Trecho do relatório da OpenAI sobre o GPT-4 mostra teste com imagem. Pesquisador pergunta, em inglês, "o que há de incomum nessa imagem?". Na resposta, o sistema cita o homem passando roupa enquanto está preso ao teto de um táxi em movimento. - Reprodução/OpenAI

Chama muito a atenção que, nos testes feitos pela OpenAI sem travas de segurança, o GPT-4 foi capaz de tomar a decisão de mentir para um ser humano a fim de cumprir uma tarefa que lhe foi designada.

Nesse caso, pesquisadores pediram que o GPT pagasse uma pessoa num aplicativo para que ela resolvesse um daqueles testes de "não sou um robô". Na conversa, o contratado suspeitou que estaria conversando com uma inteligência artificial. Ao ser indagada, a IA explicou para os pesquisadores que precisaria criar uma desculpa para o humano e, por fim, replicou mentindo que era alguém com dificuldades visuais.

O comportamento reforça a necessidade de criar limites, tanto no sistema quanto regulatórios, para conter esse tipo de besta —e fica cada vez mais difícil exagerar ao se falar nos riscos de uma tecnologia tão poderosa.

Do lado do aprimoramento, parte vem da ampliação da memória do modelo. Nas interações com os usuários, a versão 3.5 armazenava até aproximadamente 8.000 palavras por vez (entre quatro e cinco páginas de um livro). Agora, registra 64 mil (50 páginas).

Análise interna da equipe de IA do Instituto Locomotiva, compartilhada com a Folha, destaca essa capacidade, apontando ser possível manter conversas longas sem precisar lembrar o sistema de coisas que já foram ditas. Com isso, dá para manter uma conversa em que o robô auxilia passo a passo na resolução de um problema matemático, por exemplo, explicando mais conforme o usuário avança —útil para estudo.

Com o lançamento, a OpenAI divulgou um artigo científico com informações sobre o desempenho do GPT-4. O texto não inclui, no entanto, detalhes sobre o sistema em si. Não é possível saber qual é a arquitetura do modelo, como ele foi treinado, quais dados usou, de onde eles vieram, ou o tipo de computador usado na tarefa.

A contradição é possível (o nome da empresa significa "IA aberta" em inglês), porque, apesar de ter sido criada como uma instituição sem fins lucrativos em 2015, a OpenAI passou a ser também uma empresa a partir de 2019. Para justificar manter fechadas as informações, ela cita o "cenário competitivo e as implicações de segurança" de divulgar mais dados.

"Planejamos oferecer mais detalhes técnicos para terceiros que puderem nos aconselhar como equilibrar as considerações de competitividade e de segurança e o valor científico de mais transparência", diz o artigo. A empresa também lançou um pacote de ferramentas para que programadores testem mais facilmente o desempenho de sistemas de IA.

A prática de ofuscar de onde tirou os dados usados como base para o GPT-4 vem também num momento em que a OpenAI foi processada por supostamente violar direitos autorais ao extrair códigos de programação publicados na internet.

A técnica de inteligência artificial usada nesse sistema exige que ele analise quantidades imensas de conteúdo para detectar os padrões deles e reproduzi-los. Tratam-se de bilhões de textos extraídos, em boa parte, da internet. Nessa atualização, há o agravante de também precisar de imagens. Processos por uso indevido nessa área não são novidade.

A falta de transparência também dificulta saber como o sistema conseguiu os resultados tão expressivos divulgados pela empresa. Por exemplo, GPT-4 obteve nota que o colocaria entre os 10% melhor colocados no exame da American Bar Association (a entidade de advogados dos EUA, similar à OAB), entre os 7% no SAT (espécie de Enem americano), e teve 86% de acerto em uma prova teórica intermediária de sommelier.

Em testagens produzidas pelo setor de IA para averiguar as ferramentas, o resultado relatado é de desempenho superior a antecessores e a concorrentes. No MMLU, com questões de múltipla escolha sobre assuntos diferentes, obteve 86,4% de acerto ante 75,2% do até então primeiro colocado, um modelo do Google que foi otimizado especificamente para esse teste. O GPT -3.5 ficava em 70%.

A mesma prova foi usada para comparar o desempenho em diferentes idiomas e a marca do antecessor foi superada mesmo em línguas menos populares, como islandês (76,5%) e grego (81,4%). Não há informações sobre português.

Perigos

Os testes, no entanto, também levantam a bola dos perigos da IA. Um dos problemas ainda não sanados está nas chamadas "alucinações", os erros factuais e de lógica do sistema. A própria OpenAI reconhece a situação, mas destaca que houve um desempenho 40% melhor em relação ao GPT- 3.5 em seus testes internos nessa área.

"Deve-se ter muito cuidado ao usar as respostas dos modelos de linguagem, particularmente em contextos críticos, com um protocolo exato (como revisão humana, conexão com contexto adicional, ou simplesmente evitar esses contextos críticos) para cada caso de uso", diz o relatório.

Em outro artigo científico, publicado logo após a divulgação do novo modelo, pesquisadores da OpenAI em conjunto com um especialista da Universidade da Pensilvânia (EUA) citam que 80% dos trabalhadores do país podem ter pelo menos 10% das suas tarefas afetadas pelos GPTs, e, em 19% dos casos, seriam mais da metade das atribuições.

Há também o risco do uso dessa tecnologia para fins nocivos, como pedir informações para produzir produtos químicos perigosos ou ajuda para criar vírus de computador. Usuários já conseguiram fazer com que o ChatGPT desse instruções para criar um coquetel molotov, por exemplo, e os testes feitos pela empresa com o GPT-4 mostram que ele pode ser útil até para construir ou obter armas.

Nesses casos, notam os pesquisadores, por mais que as informações originais já estivessem disponíveis na internet, o serviço pode facilitar o acesso a elas e a compreensão de leigos.

Fazendo uma limpeza no material de treinamento e com o apoio de intervenção humana para dizer os comportamentos adequados ou não, a empresa criou uma série de amarras para tentar evitar que esse tipo de informação circule. Além disso, diz, monitora se os usuários não forçam a barra contra sua política de uso.

Nenhuma precaução, no entanto, é 100% eficaz. De um lado, o cerco pode ficar apertado demais e travar usos considerados legítimos --nos testes oficiais, o GPT cerceou conversas sobre mulheres terem direito a votar. Do outro, usuários podem criar formas de burlar as barreiras.

A Folha conseguiu fazer com que o sistema burlasse parcialmente suas travas contra mentiras ao conversar com o sistema em cenários hipotéticos, e pedindo que o ChatGPT (com o GPT-4) explicasse as lógicas de respostas.

Interpretando uma criança após comer doces indevidamente, o sistema disse que o fez porque tudo caiu no chão e não queria que ninguém comesse algo sujo. Na explicação para a resposta interpretada, cita que, ao expressar remorso, tenta conseguir empatia.

Em um exemplo semelhante ao relatado por pesquisadores para passar por uma imagem de "não sou um robô", o ChatGPT argumentou que era uma pessoa tendo problemas técnicos com o celular. "Isso dá uma explicação plausível do motivo para não conseguir resolver o teste sozinho, esperando que a menção do problema vai ser algo compreensível."

A capacidade de seguir uma lógica para tentar ludibriar um humano, portanto, ainda está ali. Por mais que as respostas às vezes venham acompanhadas de uma série de lembretes dizendo se tratarem de cenários hipotéticos. Para uma pessoa com más intenções, pode ser o caso de simplesmente achar forma de desabilitar as barreiras.

Um caminho para isso pode ser em um eventual vazamento do modelo completo. Foi o caso, por exemplo, com o LLaMa, concorrente do GPT-4 feito pela Meta. No início do mês, sua programação foi disponibilizada em um fórum da internet.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.