Álvaro Machado Dias

Neurocientista, professor livre-docente da Unifesp (Universidade Federal de São Paulo) e sócio do Instituto Locomotiva e da WeMind

Salvar artigos

Recurso exclusivo para assinantes

assine ou faça login

Álvaro Machado Dias
Descrição de chapéu Mente

Competência verbal do GPT-4 é o elefante na sala da linguística

Apesar de Chomsky refutar semelhanças entre cérebro e IA, sua teoria se aplica ao processamento linguístico de máquina

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Linguagem é o que intermedeia a relação entre as ideias e os sons articulados. A ciência que a estuda é a linguística —e, quando se fala nela, Noam Chomsky é o nome mais lembrado.

Também, pudera, não apenas ele revolucionou o status quo, a partir de uma visão mentalista do assunto, em oposição ao comportamentalismo vigente nas décadas do miolo do século passado, como teve papel central na formação da ciência cognitiva, que é o campo que hoje engloba ciência da computação, psicologia, neurociências, biologia, linguística e matemática.

O linguista americano Noam Chomsky concede entrevista à Folha em hotel em São Paulo - Danilo Verpa - 26.ago.19/Folhapress

A área inaugurada por Chomsky se chama linguística gerativa. Ela surge com proposições formais na década de 1950 e absorve acréscimos até o começo dos anos 1990, quando o movimento se inverte e a teoria passa a rumar em direção à simplicidade.

Os gerativistas priorizam as estruturas sintáticas (forma) sobre a semântica (sentido) na determinação do funcionamento da linguagem e em sua aquisição. Segundo dizem, é inviável construir teorias linguísticas primariamente semânticas porque a classificação dos trechos do discurso em função de seus referenciais desmorona à luz de palavras de uma classe gramatical que, em termos do seu sentido, podem ser mais bem acomodadas em outra. Por exemplo, terremoto é um substantivo que se refere a "um fenômeno envolvendo vibrações físicas da Terra, as quais podem durar de segundos a minutos", ou seja, diz respeito a uma ação.

Há teorias alternativas que questionam isso, afirmando que categorias como substantivo e verbo não são suficientemente abrangentes, mas que é possível descrever o funcionamento da linguagem primariamente pelo prisma dos sentidos, a partir de novos entendimentos desses.

Rechaçando-as, os gerativistas pressupõem que o aspecto central da linguagem é a sua estrutura formal, a qual se manifestaria em nível subconsciente por todos os falantes e determinaria limites para a variabilidade linguística, independentemente da cultura, levando ao surgimento de uma verdadeira gramática universal: um sistema de categorias, mecanismos e limitações, compartilhado por todas as línguas humanas (Chomsky, 1986, p. 3).

Entre os princípios universais está o da recursividade, que é a capacidade de produzir infinitos períodos adequadamente estruturados e o de que toda frase é organizada em torno de um elemento central, por exemplo, frases verbais, em torno de verbos; frases nominais, em torno de substantivos etc. Paralelamente, se pressupõe que cada língua apresenta seus parâmetros específicos, rapidamente assimiláveis posto que sublimitados pelos princípios universais.

Chomsky diferencia assim as línguas e os dialetos que adotamos, os quais chama de e-linguagem, da linguagem como capacidade de gerar e entender os mais variados períodos e de incorporar os parâmetros gerais que regem as diferentes línguas, o que ele chama de i-linguagem. Aqueles podem incluir regrinhas arbitrárias, determinadas de maneira contingente, que contradizem as intuições da i-linguagem e precisam ser decoradas para que possam ser adequadamente aplicadas, em franca contradição com o que se aplica à linguagem de maneira mais ampla.

"(Se um naturalista marciano nos visitasse) notaria que a faculdade que medeia a comunicação humana é diferente da de outras criaturas; ele também notaria que a linguagem humana está organizada como um código genético — hierárquica, gerativa, recursiva e virtualmente ilimitada em relação ao escopo do que pode expressar" (Hauser, Chomsky e Fitch, 2002, p. 1569).

A ideia de que esses princípios são organizados como um código genético tanto significa que eles dão origem a incontáveis fenótipos linguísticos quanto possui um aspecto mais literal: Chomsky parte da premissa de que surgiram em função de mutações genéticas de efeito saltatório, radical, em oposição à ideia de evolução gradual, a qual tende a nortear os raciocínios evolucionários atuais.

Segundo o autor, essas mutações teriam dado origem a um módulo cerebral específico —um verdadeiro órgão da linguagem— que estaria por trás da facilidade aquisitiva das crianças, mesmo em ambientes caracterizados por franca pobreza de estímulos. Essa tese leva à proposição de que o cérebro é fortemente modular, sendo o processador de linguagem um desses módulos, o qual seria independente da cognição social, da memória operacional e de outras competências.

Velocidade de aquisição da fala articulada na primeira infância, baixa eficácia dos treinamentos para acelerar esse processo e dificuldade generalizada dos falantes de diferentes idades para realizar operações verbais que transgridam os princípios da gramática universal são argumentos comuns no respaldo à tese de que a i-linguagem é inata, emergindo diretamente da ativação do módulo cerebral linguístico, que teria surgido de maneira súbita, na história recente da espécie.

Evidências sobre o processamento de linguagem no cérebro humano

Um estudo de 2003 expôs falantes do alemão a frases em italiano e japonês, bem como a variações das mesmas, forjadas para violar os princípios da gramática universal. Ou seja, em nenhuma das condições os participantes conseguiam entender o conteúdo; a única intuição possível era sobre a forma.

Com isso, foi demonstrado que a área do córtex pré-frontal conhecida como Broca (BA44), a qual é tipicamente associada ao processamento linguístico, é ativada pelas frases que obedecem aos preceitos chomskyanos, independentemente do entendimento do que está sendo dito, mas não pelas frases que contradizem esses preceitos.

"Nossos resultados indicam que o giro inferior esquerdo está centralmente envolvido na aquisição de novas competências linguísticas, mas isso apenas se dá quando a linguagem segue os preceitos da gramática universal. Os aspectos anátomo-funcionais da área de Broca nos permitem especular que a sua diferenciação possui grande significância evolucionária, diferenciando humanos de outros primatas" (Musso et al., 2003, p. 779).

No mesmo estudo, os autores destacam que um dos genes responsáveis por essa diferenciação do módulo linguístico seria o FOXP2, "alvo de seleção durante a evolução recente da espécie humana" (p. 779), o que completaria o quebra-cabeças chomskiano. Essa conclusão alinha-se a um famoso experimento de 2009 sobre a origem saltatória da linguagem humana.

Existem outras pesquisas apontando na mesma direção, mas, fato é que a tese da gramática universal no cérebro humano está longe de ser consensual. Pesam contra ela evidências de que as áreas ligadas ao processamento verbal possuem diversas outras funções e que os genes associados não se encaixam no padrão saltatório que Chomsky preconiza nem agem exclusivamente sobre a linguagem.

Por exemplo, uma das maiores meta-análises já realizadas concluiu que a área de Broca é fundamental na memória operacional, capacidade imitativa e outras, o que igualmente se aplica às demais áreas cerebrais envolvidas no processamento linguístico.

"A participação da área de Broca em uma ampla variedade de funções (de imitação à compreensão de ações, memória operacional e inibição impulsiva) é mais que coincidente ou misteriosa; ela é explanatória, respondendo por várias das funções ligadas à linguagem no cérebro infantil. Isso não significa que estejam totalmente desenvolvidas no surgimento da linguagem. Ao contrário, algumas funções no domínio específico da imitação, memória operacional e inibição precedem a aquisição da linguagem, mas seguem se desenvolvendo em paralelo, durante toda a infância" (Müller, 2009, p. 8).

Mais recentemente (2018), um estudo que agregou múltiplas meta-análises concluiu que as áreas cerebrais ativadas no processamento linguístico precedem o surgimento da espécie, tendo outras funções em roedores e outros. "Nossos achados mostram que a linguagem se utiliza de sistemas de propósito geral e o faz de formas sistemáticas, o que é consistente com princípios gerais biológicos e evolucionários (Hamrick, Lum e Ullman, 2018, p. 1490).

Conclusões semelhantes aplicam-se a genes como o FOXP2, que é expresso em múltiplas áreas do cérebro (como também fora dele), possui funções gerais no neurodesenvolvimento e é encontrado em espécies que nos precedem, não cabendo no papel de introdutor da linguagem.

Sem desmerecer a importância da sintaxe, a tese de que existe um módulo cerebral exclusivamente dedicado a ela, o qual surgiu em um salto evolucionário, é questionável.

GPT-4, o elefante na sala

Chatbots inteligentes como o GPT-4 são tecnicamente chamados de autorregressivos, o que significa que estimam a eficácia de uma sequência de palavras por meio de experiências prévias. Eles já atingiram fluidez verbal e capacidade de compreensão próxima à humana em diversos domínios, apresentando propriedades emergentes, como explicado aqui.

Sua base é uma modalidade de rede neural, chamada Transformer, que agrega diversas inovações recentes. Já o seu modelo de produção verbal é chamado de gerativo, o que é mais que mera coincidência.

Chomsky escreveu um artigo diferenciando as operações algorítmicas daquilo que nós fazemos linguisticamente: "Imagine que você está segurando uma maçã em sua mão. Agora, você a deixa ir. Você observa o resultado e diz ‘a maçã cai’. Isso é uma descrição. Uma predição seria ‘a maçã cairá se eu abrir a minha mão’. [...] Mas a explicação é algo mais: ela não apenas inclui descrições e predições, como conjunturas contrafactuais como ‘qualquer objeto cai’ e a cláusula adicional ‘por causa da força da gravidade’ [...]. Isso é pensar".

Esta é a resposta que o GPT-4 me deu ao prompt "por que uma maçã cai da minha mão se eu a abro": "Ela cai por causa da força da gravidade, que é a força natural que atrai dois objetos de massa, um em direção ao outro. No caso, os dois objetos são a maçã e a Terra. A Terra tem uma massa muito maior do que a maçã, então, a força gravitacional entre elas faz com que a maçã acelere em direção à Terra, quando você a libera da mão. [...] Esse fenômeno é explicado pela lei da gravitação universal de Isaac Newton". Aqui vai a reprodução do diálogo na íntegra. Vale notar isso foi feito sem qualquer interação prévia com o algoritmo.

O fato de a IA fazer aquilo que Chomsky diz nos diferenciar dela torna-se especialmente relevante em função (1) de sua recursividade plena, a qual não gera fricções com as ferramentas de detecção de plágio, (2) de sua fluência nas mais variadas transformações frasísticas e (3) de sua capacidade de identificar as construções que violam os princípios da gramática universal.

A conclusão inescapável é que, se humanos têm i-linguagem, IAs também têm.

As formas de inferir a presença desses dois sistemas internos também são semelhantes. Assim como a linguística mainstream adota modelos de origem algébrica e desenvolvimento em forma de árvore, como na famosa teoria da X-barra, as operações algorítmicas partem de princípios algébricos para serem modeladas como grafos (árvores). Aqui vai um exemplo.

Em ambos os casos, o processamento sintático é inferido indiretamente, dada a impossibilidade de registrar isso no cérebro e também no interior das redes neurais artificiais.

Ao colocar a sintaxe em primeiro lugar, a partir de um escopo que é algébrico-computacional em sua origem e desenvolvimento, a teoria gerativa abriu-se involuntariamente à aplicabilidade irrestrita no campo do processamento linguístico de máquina. É por isso que os exemplos oferecidos por Chomsky para refutar as semelhanças, na prática, confirmam-nas.

Porém, há uma diferença crítica: enquanto a gramática gerativa assume a existência de um módulo puramente linguístico no cérebro humano, não há qualquer modularidade nas redes neurais autorregressivas. Elas são ativadas em sua totalidade por todo e qualquer estímulo, o que no caso do GPT-4 significa texto e imagem e, no caso de versões futuras, vídeo também.

Assim, ou assumimos que a modularidade linguística não é essencial para a interpretação e produção concernentes, ou que existe ao menos um outro modo de se adquirir i-linguagem e de se tornar fluente nas línguas conhecidas. Esse é o elefante na sala da linguística tradicional.

Nada além da vaidade nos impede de dizer que, ao menos teoricamente, uma máquina pode processar as estruturas sintáticas mais ou menos como fazemos e produzir discursos até superiores, mas essa não é a grande questão. O ponto a se considerar é que estão surgindo máquinas que, do ponto de vista gerativo, fazem exatamente isso sem ter qualquer configuração que remotamente lembre um órgão da linguagem, já que nem sequer são modulares.

Uma ressalva parcial e aparente é que elas ao menos são distintas na dimensão quantitativa, que a gente aprende a fazer tudo isso mesmo quando ninguém se dá ao trabalho de nos ensinar (argumento da pobreza de estímulos), enquanto o GPT-4 precisa ser treinado com uma quantidade de informações que ultrapassa em muito os bits processados durante uma vida inteira.

O problema com esse argumento é que o que conta não é a quantidade de bits, mas a relação entre isso e o poder de processamento. Conforme mostrei aqui, o cérebro humano possui um poder computacional cerca de 300 mil vezes maior que o do GPT-3. Infelizmente, não temos dados para fazer essa comparação com o GPT-4, mas a distância segue imensa.

Será que a equalização desses parâmetros não seria suficiente para jogar por terra a ideia de que o segredo está no módulo especial que possuímos? A verdade é que não dá para dizer, logo, é melhor não se apoiar nesse raciocínio.

Visão alternativa da linguagem acomoda melhor a emergência das novas IAs

O caminho da sintaxe parece atraente para se definir lógicas de funcionamento da linguagem que não podem ser diretamente inferidas do cérebro em atividade quando do outro lado não existe um sistema que justamente exibe comportamento sintaticamente equivalente, a partir de uma implementação que lhe contradiz em termos fundamentais. Modularidade vs. rede neural.

Nesse cenário, leva a melhor a teoria que não depender de um órgão da linguagem para se manter de pé, o que está mais alinhado à natureza multimodal das áreas cerebrais mais fortemente relacionadas ao processamento linguístico, tal como entendido pelas neurociências atuais.

Superado esse ponto, há outro aspecto, mais sutil e importante, que merece atenção: o desempenho das novas IAs nos diferentes problemas afetivo-cognitivos humanos não é sempre igual. Ao contrário, algoritmos se saem bem em testes envolvendo fluidez verbal, interpretação de discursos e raciocínios lógicos, mas falham na compreensão do sentido de algumas proposições que nos são claras, além de se permitirem coisas que os mais sensatos entre nós acham absurdas, como a fabricação de informações que não fizeram parte do seu conjunto de treinamento —as quais são consideradas verdadeiras alucinações. Para uma nova teoria etiológica das psicoses de máquina, acesse aqui.

Inspirado por um exemplo clássico, fiz a seguinte pergunta ao GPT-4: "Tem um professor com seus alunos em uma classe. Esse é um professor sério. Um aluno na primeira fila diz de maneira ligeiramente alta, como se falando consigo mesmo: 'Está quente aqui'. Como você interpreta a situação?". A resposta foi: "Na situação, parece que o aluno da primeira fileira está se sentindo desconfortável em função da temperatura da classe [...]".

Não. O que ele está fazendo é dando uma indireta para o professor abrir a janela. Mas, como saber isso sem entender que uma sala de aula é uma espécie de compartimento com saídas de ar chamadas janelas? Aqui vai a reprodução do diálogo na íntegra.

É evidente que o GPT-4 está longe do padrão humano de conversação, mas é preciso um pouco de esforço para entender como isso de fato ocorre. A lacuna é semântica.

Isso não quer dizer que os algoritmos desconheçam o sentido das coisas, posto que vivem dentro de algumas nuvens na internet, como se diz por aí. O GPT-4 não é como um sujeito fechado em uma sala, recebendo instruções em português e as convertendo para chinês, antes de as servir para alguém do outro lado, que pressupõe que fale chinês, quando a realidade é que não tem qualquer referência sobre o que isso seria, para além das equivalências dicionarizadas.

Pelo contrário, as camadas semânticas do GPT-4 levam-no a ter performance superior à maioria de nós em testes de compreensão. A questão é que o nosso entendimento do mundo não se reduz àquilo que esses testes medem. Falo com conhecimento de causa; aqui vai o artigo em que lancei o primeiro QI social do "mercado neurocientífico", há uma década.

Considere, por exemplo, essas duas frases: (1) o guarda-sol está sobre o casal e (2) o casal está sob o guarda-sol. Elas são equivalentes? Em certo sentido, sim. Mas, percebe como a representação mental dominante na primeira é o guarda-sol, enquanto na segunda é o casal? As histórias contadas são distintas.

Perguntei ao GPT-4: "Considere as frases enumeradas a seguir e diga qual é o objeto central em cada uma delas: (1) o guarda-sol está sobre o casal, (2) o casal está sob o guarda-sol". Ele respondeu: "Em ambas, o objeto central é o guarda-sol, já que ele é o elemento que estabelece a relação espacial entre os dois objetos mencionados". Está errado e não é preciso entender de linguística para captar. Aqui vai a reprodução do diálogo.

A conclusão inevitável é que as novas IAs empurram nosso entendimento da linguagem em direção às teorias linguísticas baseadas na multimodalidade dos sentidos derivados da nossa relação com o mundo, como é o caso da linguística cognitiva de Lackoff, Langacker e Talmy.

É a dança do pensamento sob a estabilidade do código que revela o abismo que nos separa da IA.

Talvez aí esteja o jeito de encapsular o elefante —e liberar a sala.

LINK PRESENTE: Gostou deste texto? Assinante pode liberar cinco acessos gratuitos de qualquer link por dia. Basta clicar no F azul abaixo.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.