Descrição de chapéu DeltaFolha Enem

Enem mostra que ChatGPT domina 'decoreba' e interpretação de texto

Teste da Folha expõe dificuldade com química e matemática, mas bom desempenho em conhecimento enciclopédico

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

São Paulo e Cascavel (PR)

Apesar de ter desempenho superior ao da maioria dos humanos que fizeram o Enem (Exame Nacional do Ensino Médio), ao responder a prova o ChatGPT mostra sua dificuldade com tarefas que exigem bolar e executar uma sequência de passos. Ao mesmo tempo, o conhecimento enciclopédico da ferramenta aparece como sua virtude.

A avaliação vem de análise do DeltaFolha, que ajuda a mostrar algumas das limitações da ferramenta.

Desde o seu lançamento, o ChatGPT movimentou a área da inteligência artificial (IA) por demonstrar, em formato de bate-papo, grande capacidade de processar conteúdo escrito, seguir instruções dos usuários e gerar textos que parecem escritos por humanos.

No Enem, ChatGPT tem dificuldade com química e matemática, mas vai bem em conhecimento enciclopédico - Dado Ruvic/Reuters

Por se tratar de um software voltado à linguagem, no entanto, apresenta desempenho errático em algumas tarefas. Ainda é difícil prever exatamente onde os problemas ocorrem, mas sabe-se, por exemplo, que derrapa em matemática e que, por vezes, inventa informações.

Para avaliar a ferramenta, a reportagem a colocou para resolver provas de oito edições do Enem (aplicadas de 2009 a 2017). Cada questão foi identificada de acordo com o tipo de conhecimento necessário para respondê-la. Com isso, foi possível saber em qual tarefa a ferramenta tem mais dificuldade, e não apenas mapear o desempenho por área do conhecimento (biologia e física, por exemplo).

Como a inteligência artificial não lê imagens, foram removidas as perguntas que dependiam do recurso, deixando um total de 766 (veja a lista completa). Além disso, as questões foram divididas por níveis de dificuldade de acordo com os acertos dos estudantes.

As provas usadas foram classificadas pelos pesquisadores Igor Cataneo Silveira e Denis Deratani Mauá, do Instituto de Matemática e Estatística da USP (Universidade de São Paulo). O trabalho foi voltado a criar um conjunto de perguntas do Enem para a avaliação de IAs. Cada questão recebe uma ou mais das seguintes marcações:

  • Conhecimento enciclopédico: precisa saber um dado ou informação que não está no cabeçalho da pergunta, mas pode ser lido em um livro, como dizer qual a 1ª Lei de Newton. Acertou 223 de 264 (84,5%)

  • Compreensão de texto: envolve retirar informações dispostas na própria questão. Acertou 449 de 547 (82,1%)

  • Conhecimento específico: exige algum tipo de inferência ou conhecimento mais avançado de um domínio, como diferenciar, na prática, os conceitos de calor e temperatura. Acertou 105 de 148 (71%)

  • Conhecimento em química: exige a manipulação de fórmula, como ao interpretar a transformação de elementos químicos. Acertou 10 de 19 (52,6%)

  • Raciocínio matemático: inclui transformar as instruções em uma fórmula matemática, como nos problemas de encontrar o valor de X. Acertou 47 de 135 (34,8%)

Categoria em que o ChatGPT teve melhor desempenho, o conhecimento enciclopédico ajudou a alavancar os acertos do robô nas provas de linguagem e de ciências humanas. No caso das naturais, o resultado saltou nas perguntas que foram consideradas mais fáceis e caiu nas mais difíceis. Nenhuma de matemática testou essa habilidade.

Já a interpretação de texto ajudou o robô a ir melhor nas provas de ciências humanas e naturais. A modalidade aparece em praticamente todas as perguntas dos testes de linguagens e em nenhuma de matemática, impossibilitando a avaliação.

A matemática, que já era conhecida como uma das fraquezas do sistema da OpenAI, continua a ser uma limitação. Em testes da Folha feitos no início do mês foi na prova dessa disciplina que o robô recebeu, de longe, a pior nota.

A análise atual mostra que a necessidade desse raciocínio derruba também o número de acertos na prova de ciências naturais, a única a exigir todos os tipos de habilidades avaliadas. Ainda assim, a tecnologia acertou mais do que os concorrentes humanos independentemente de tipo ou dificuldade da pergunta.

Outro ponto fraco foi química, presente em 19 questões nas provas de ciências naturais. Acertou 10.

"O ChatGPT se daria muito mal numa prova de química porque não entende o que está fazendo", diz o professor André Pimentel, do departamento de Química da PUC-Rio. Ele é autor de um estudo que avalia o desempenho da inteligência artificial na matéria.

"O problema da química é quando você coloca representações, como fórmulas. Ele não entende aquilo como uma palavra", afirma o professor. "Ele entende contexto. Se tem pouca informação sobre o assunto na internet, algo que só um especialista sabe, é difícil. Diferente de pegar algo como química ambiental, sustentabilidade, com informações encontradas mais facilmente", acrescenta.

As questões que avaliam habilidades de química e matemática exigem não apenas compreensão do contexto do que é dito, mas criação e execução de uma sequência de passos para resolver um problema.

Uma maior dificuldade na área apareceu em artigo divulgado em março por pesquisadores das de USP, Unicamp e USF (Universidade São Francisco), também avaliando o Enem.

No estudo, o grupo obteve resultados melhores ao solicitar que a IA não apenas apontasse a resposta correta, mas explicasse a lógica que usou na resolução.

Os trunfos e as limitações do ChatGPT são vistos também quando cada uma das habilidades é analisada isoladamente. Nesses casos, o percentual de acertos sobe ainda mais no conhecimento enciclopédico (90,2%), e o de matemática cai (31,2%). Em compreensão de texto, o resultado é inferior (80,6%). Não há questões puramente de química e pouquíssimas exigem habilidades específicas (apenas 13).

Mesmo com uma noção melhor de onde estão os pontos fortes da tecnologia, a confiança no seu desempenho merece cautela.

"O GPT-4 tem uma tendência a alucinar, isto é, ‘produzir conteúdos sem sentido ou inverdades em relação a certas fontes’. Essa tendência pode ser especialmente prejudicial conforme os modelos se tornam mais convincentes, levando a um excesso de confiança pelos usuários", alerta o artigo que acompanhou o lançamento da versão mais atual do sistema da OpenAI, em março.

O uso de baterias de perguntas é uma das principais formas de medir o desempenho das IAs. As versões mais sofisticadas dessas ferramentas têm sido avaliadas com provas originalmente voltadas a humanos.

"O Enem tem perguntas bem interdisciplinares, com vários domínios numa mesma questão. E tem o fato de ser múltipla escolha, que facilita ao computar os acertos", diz Denis Deratani Mauá, professor associado do Departamento de Ciência da Computação da USP e um dos responsáveis pelo estudo que classificou as perguntas.

Os testes da Folha foram feitos com a versão 3.5 do GPT. A versão 4 pode oferecer resultados melhores, mas ainda não está amplamente disponível na forma usada por programadores, que possibilita fazer as provas automaticamente. A reportagem pediu acesso à OpenAI, mas não foi atendida.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.