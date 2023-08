São Carlos (SP)

Duas mulheres que perderam a capacidade de falar por causa de problemas neurológicos severos conseguiram usar seus impulsos cerebrais para produzir mensagens de texto e até uma voz sintética, num ritmo rápido o suficiente para manter uma conversa.

Os resultados, descritos em dois estudos que acabam de sair no periódico especializado Nature, ainda estão longe de produzir uma tecnologia que possa ser usada com facilidade por muitos pacientes. A margem de erro dos sistemas também é relativamente alta. Mesmo assim, os trabalhos representam um grande avanço em relação ao que tinha sido feito nessa área até agora.

As pesquisas são frutos do esforço paralelo de dois grupos de cientistas nos EUA. A equipe liderada por Sean Metzger e Edward Chang, da Universidade da Califórnia em San Francisco, trabalhou com uma paciente de 47 anos que sofreu um derrame em seu tronco cerebral (região na base do cérebro).

Participante do estudo tenta falar silenciosamente uma frase, enquanto o sistema de prótese de fala traduz os sinais de seu cérebro em fala sintetizada e nos movimentos faciais de um avatar - Noah Berger/Universidade da Califórnia

Já o grupo comandado por Francis Willett e Jaimie Henderson, da Universidade Stanford (também na Califórnia), testou a abordagem numa mulher que sofre de esclerose lateral amiotrófica —a mesma doença neurodegenerativa que paralisou quase totalmente o célebre físico Stephen Hawking (1942-2018).

Henderson, em entrevista coletiva online, destacou que tem uma motivação profundamente pessoal para se envolver no projeto. "Quando eu tinha cinco anos de idade, meu pai se envolveu num acidente de carro devastador que causou lesões cerebrais sérias nele", explicou. "Lembro rir das piadas que ele tentava contar, mas cujo final eu não conseguia entender, por causa de suas dificuldades de fala. Ele faleceu de câncer pancreático na mesma semana em que publicamos um preprint [versão preliminar] deste estudo."

Há algumas diferenças na maneira como os pesquisadores decidiram captar impulsos elétricos do cérebro das pacientes. O grupo de San Francisco implantou eletrodos numa área relativamente grande da superfície do córtex (a área cerebral mais externa), o que lhes permitiu "ouvir" o que seria uma média da atividade de muitos milhares de neurônios. Já os cientistas de Stanford usaram eletrodos implantados dentro do córtex, captando assim impulsos elétricos neurônio por neurônio —no caso, de algumas centenas deles.

Apesar das abordagens distintas, o objetivo da equipe era o mesmo. E, curiosamente, a ideia não era captar algo como o "conceito" mental por trás de cada palavra, mas sim a representação cerebral dos movimentos da fala.

Ou seja, as pacientes imaginavam estar pronunciando as palavras, ativando as áreas cerebrais que normalmente controlariam o posicionamento da língua, dos lábios etc. E essa informação é que foi usada para reconstruir as palavras por meio de modelos de inteligência artificial.

O grupo de Metzger e Chang usou esses dados para produzir não só mensagens de texto como também uma voz artificial (cujo som foi calibrado com base em gravações da voz real da paciente) e um avatar virtual que lembra os criados para representar empresas e aplicativos nos últimos anos. Já Henderson, Willett e companhia se concentraram na reprodução da "fala imaginada" no formato de texto.

A precisão dos resultados depende, para ser medida, do conjunto total de palavras que cada paciente podia usar, já que os pesquisadores trabalharam com diferentes "dicionários" durante as várias sessões de treino dos aparelhos. Com um conjunto de apenas 50 palavras, a equipe de Stanford teve uma taxa de erro de 9%, que sobe para 24% quando se usa um universo de 125 mil palavras. Já o grupo de San Francisco tinha uma taxa de erro de 25% num vocabulário de 1.024 palavras (no caso das mensagens de texto; a taxa dobra com o sintetizador de voz). Com os aparelhos, as pacientes conseguiam emitir 60 e 80 palavras por minuto, respectivamente —na fala natural, a média é de cerca de 150 palavras por minuto.

Além da necessidade de refinar esses números, é preciso levar em conta que, no estágio atual, ambas as abordagens são muito invasivas e pouco práticas —nenhuma usa um sistema sem fio, por exemplo. Também é preciso lidar com as consequências de longo prazo da implantação dos eletrodos no cérebro — hoje, eles provavelmente teriam de ser trocados periodicamente.

Outro detalhe importante é que ambas as pacientes ainda têm alguma capacidade residual de movimentar voluntariamente os músculos ligados à fala. Para os pesquisadores, no entanto, resultados semelhantes também seriam possíveis em pacientes sem qualquer capacidade de se mexer por vontade própria, a chamada síndrome de "locked-in" (literalmente "trancado dentro", em inglês).