Inteligência artificial é treinada pelos olhos e ouvidos de uma criança

Estudo usa imagens de câmera acoplada a um bebê para 'ensinar' IA a entender palavras e conceito

Filipe Vilicic

São Paulo

O que um bebê vê e ouve pode ajudar a criar robôs mais parecidos com humanos. Essa foi uma das conclusões apresentadas por quatro cientistas da Universidade de Nova York (NYU) em um estudo no qual usaram imagens gravadas de uma câmera acoplada à cabeça de uma criança. O trabalho foi publicado nesta quinta (1º) na revista Science.

Os pesquisadores programaram uma inteligência artificial (IA) para aprender significados e contextos por meio da associação de dois dos principais estímulos de um recém-nascido, o visual e o auditivo. O software, chamado de Modelo de Aprendizagem pela Visão Contrastiva da Criança (CVCL, na sigla em inglês), foi alimentado com 61 horas de gravações, feitas entre os 6 e os 25 meses do bebê. Isso representou 1% de seu tempo acordado.

"Usamos vídeos filmados há cerca de dez anos por psicólogos visionários, que compreenderam que esse tipo de dado seria valioso para estudos futuros", afirma, em entrevista por chamada de vídeo, o cientista de dados Wai Keen Vong, que assina como principal autor da pesquisa. O CVCL, a IA usada pelo grupo da Universidade de Nova York, realiza cruzamentos entre as imagens registradas e palavras ditas por adultos ao redor da criança.

Para avaliar a eficácia da máquina, Vong e seus colegas a testaram com seleções de fotos de objetos que parecem com aquelas do sistema reCAPTCHA, usado pelos sites para distinguir acessos de humanos dos automatizados. Por exemplo, perguntava-se "Qual é a bola?" para a IA, enquanto se exibiam também imagens de um cachorro, um brinquedo e um biscoito, além da opção correta. O programa acertou 61% das perguntas.

"Ainda não fizemos comparações diretamente com o desempenho de crianças, esperamos que trabalhos futuros realizem isso", diz o cientista de dados. "O que já podemos dizer é que uma IA pôde aprender sozinha suas primeiras palavras e relacioná-las a objetos de forma próxima à [forma] como é com um bebê."

O estudo ressalta que os estímulos visuais e sonoros não representam toda a experiência de ser uma criança. "Um humano aprende pelo toque, pelos sentimentos, entre outras formas", destaca Vong.

Segundo seu colega Brenden Lake, professor de psicologia e de ciência de dados da NYU, uma das metas da pesquisa é "aproximar a forma como as pessoas e as máquinas aprendem". Diz ele, que é coautor do estudo: "É importante treinar a IA a encarar situações mais realistas, inclusive para desenvolver habilidades cotidianas".

Como um bebê

Usualmente, sistemas computacionais são alimentados com trilhões de palavras para assim acumularem informações e conseguirem responder a comandos. "Dessa forma, criam um conhecimento enciclopédico, mas incapaz de ações que nós fazemos naturalmente, como modelar novas ideias", diz Vong.

O CVCL, a IA usada pela equipe do Centro de Ciência de Dados da NYU, usou uma base bem menor de palavras, algo na casa de centenas, para aprender sozinho (ou seja, sem ser guiado por humanos no processo) sobre conceitos básicos do mundo. "Nossas descobertas sugerem que muitos dos primeiros mapeamentos de palavras-imagens podem ser adquiridos a partir de apenas dez a cem pares de palavras-imagens que ocorrem naturalmente", escrevem os pesquisadores no artigo.

O neurocientista brasileiro Talmo Pereira, líder de um laboratório que leva seu nome no Salk Institute for Biological Studies, na cidade californiana de San Diego, avaliou o novo estudo a pedido da Folha. Referência no campo de estudos de aprendizagem de máquina ("machine learning", no termo em inglês), e sem ter qualquer ligação com os pesquisadores da NYU, Pereira considerou o artigo "incrível, apesar de algumas limitações práticas".

Bebês começam a apresentar suas primeiras palavras, conectando-as a objetos e conceitos do, digamos assim, mundo real, entre os 6 e os 9 meses de idade. Quando chegam aos 2 anos, a maioria compreende em torno de 300 palavras. O processo de como essa aprendizagem ocorre é pouco compreendido pela ciência.

"Como o estudo se baseia em apenas 1% do tempo desperto da criança, falta compreender o que acontece no restante desse tempo", diz Pereira.

O neurocientista avalia que com um período maior de gravações seria possível responder a questões como: O bebê precisa ser exposto a mais estímulos para compreender uma palavra? Depois de entendê-la, passa a dar menor importância a ela e volta a atenção a outro objeto, ou ocorre o inverso?

"Esse estudo certamente abre novos caminhos, principalmente para o desenvolvimento de IAs", acrescenta o brasileiro. "Existe um forte movimento de criar inteligências cada vez mais semelhantes às de cérebros orgânicos."

Robôs mais humanos

Os autores do estudo publicado na Science destacam como humanos e máquinas aprendem de forma distinta, tanto quanto apresentam diferentes tipos de inteligência. Nós, por exemplo, somos melhores em realizar associações entre palavras e imagens.

Por isso o reCAPTCHA, o sistema usado por sites para distinguir acessos de pessoas dos automatizados (ou seja, de IAs), solicita que o navegante distinga as fotos nas quais há objetos específicos.

"Esse tipo de inteligência, a nossa, é bem difícil de reproduzir", afirma o neurocientista Talmo Pereira. Em seu laboratório na Califórnia, na qual lidera 15 pesquisadores, usa a IA como uma forma de investigar padrões biológicos em animais e humanos.

O Talmo Lab, do Salk Institute, usa essas ferramentas de IA para, por exemplo, o desenvolvimento de softwares capazes de detectar precocemente doenças. Em outra pesquisa, em parceria com um museu de Los Angeles, seu time rastreou como as pessoas se comportam diante de obras de arte. Além disso, tem trabalhos sob encomenda da Nasa, a agência espacial americana, também dentro do campo de "machine learning".

Coautor da pesquisa sobre a máquina que aprendeu pelos olhos de uma criança, Brenden Lake, da NYU, afirma que usualmente uma IA é treinada com milhões de imagens genéricas. "Queremos mostrar que uma máquina pode se desenvolver da mesma forma que nós, com situações cotidianas e um vocabulário limitado."

Na prática, isso quer dizer que, em vez de o robô compreender o que é um carro com base em vídeos de corrida do YouTube e fotos do Google, saberá a partir de palavras ditas por uma mãe, enquanto ela segura um brinquedo. "Se quisermos criar uma inteligência artificial realmente similar à nossa, esse tem se mostrado ser o melhor caminho", conclui Talmo Pereira.

Para o neurocientista brasileiro, um dos próximos passos é unir as capacidades de diferentes IAs que estão conseguindo replicar distintas capacidades humanas. Ele prevê: "Em dois ou três anos, poderemos ter uma máquina capaz de tanto aprender por meio do que vê e ouve quanto por meio do rastreamento de movimentos e outros estímulos externos". Ou seja, ainda mais semelhante a nós.

Tópicos relacionados

Leia tudo sobre o tema e siga:

Últimas notícias

Inteligência artificial é treinada pelos olhos e ouvidos de uma criança