Com robótica, IA por trás do ChatGPT ensaia ir além do mundo digital

Startup Covariant desenvolve tecnologia que permite ao robôs aprender habilidades de forma semelhante aos chatbots

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Cade Metz
Emeryville (EUA) | The New York Times

Empresas como OpenAI e Midjourney desenvolvem chatbots, geradores de imagens e outras ferramentas de inteligência artificial que operam no mundo digital.

Agora, uma startup fundada por três ex-pesquisadores da OpenAI está usando os métodos de desenvolvimento da tecnologia por trás dos chatbots para construir uma que consegue interagir com o mundo material.

A Covariant, empresa de robótica sediada em Emeryville, na Califórnia, está criando maneiras que possibilitam que os robôs peguem, movam e organizem itens enquanto são transportados por depósitos e centros de distribuição.

O objetivo é ajudar os robôs a entender o que está acontecendo ao seu redor e decidir o que devem fazer em seguida.

Robô de IA da Covariant chaamdo Robotic Putwall na sede da empresa
Robô de IA da Covariant chaamdo Robotic Putwall na sede da empresa - Balazs Gardi - 8.mar.2024/The New York Times

A tecnologia também dá aos robôs uma compreensão ampla do inglês, permitindo que as pessoas conversem com eles como se estivessem conversando com o ChatGPT.

Ainda em desenvolvimento, a tecnologia não é perfeita. Mas é um sinal claro de que os sistemas de IA por trás dos chatbots e dos geradores de imagens da internet também impulsionarão máquinas em depósitos, estradas e residências.

Assim como os chatbots e geradores de imagens, essa tecnologia de robótica aprende suas habilidades analisando enormes quantidades de dados. Isso significa que os engenheiros podem melhorar a tecnologia alimentando-a com cada vez mais dados.

A Covariant, apoiada por US$ 222 milhões em financiamento, não constrói robôs. Ela constrói o software que alimenta os robôs.

A empresa pretende implantar sua nova tecnologia naqueles que funcionam em depósitos, fornecendo um parâmetro para que outros façam o mesmo em fábricas e talvez até mesmo em estradas com carros autônomos.

Esses sistemas de IA por trás dos chatbots são chamados de redes neurais, remetendo à rede de neurônios no cérebro. Ao identificar padrões em grandes quantidades de dados, esses sistemas podem aprender a reconhecer palavras, sons e imagens —ou até mesmo a gerá-los por conta própria.

Foi assim que a OpenAI construiu o ChatGPT, que consegue responder a perguntas instantaneamente, escrever trabalhos acadêmicos e gerar programas de computador. Ele aprendeu essas habilidades a partir de textos coletados em toda a internet.

Empresas estão agora construindo sistemas que podem aprender com diferentes tipos de dados ao mesmo tempo. Ao analisar tanto uma coleção de fotos quanto as legendas que descrevem essas fotos, por exemplo, um sistema pode compreender as relações entre os dois. Ele pode aprender que a palavra "banana" descreve uma fruta amarela e curva.

A OpenAI empregou esse sistema para construir o Sora, seu gerador de vídeos. Ao analisar milhares de vídeos legendados, o sistema aprendeu a gerar vídeos a partir de uma breve descrição de uma cena.

Fundada por Pieter Abbeel, professor da Universidade da Califórnia em Berkeley, e três de seus ex-alunos, Peter Chen, Rocky Duan e Tianhao Zhang, a Covariant usou técnicas semelhantes na construção de um sistema que alimenta robôs de depóstios.

A empresa ajuda a controlar robôs de classificação em depósitos de todo o mundo. Ela passou anos reunindo dados —de câmeras e outros sensores— que mostram como esses robôs operam.

"O sistema coleta todos os tipos de dados que importam para os robôs —que podem ajudá-los a entender o mundo físico e interagir com ele", disse Chen.

Ao combinar esses dados com a enorme quantidade de texto usada para treinar chatbots como o ChatGPT, a empresa construiu uma tecnologia de IA que dá aos seus robôs uma compreensão muito mais ampla do mundo ao seu redor.

Após identificar padrões nesse caldeirão de imagens, dados sensoriais e texto, a tecnologia dá ao robô o poder de lidar com situações inesperadas no mundo físico. O robô sabe como pegar uma banana, mesmo que nunca tenha visto uma banana antes.

Ele também consegue responder em inglês simples, assim como um chatbot. Se você disser para ele pegar uma banana, ele sabe o que isso significa. Se você disser para ele pegar uma fruta amarela, ele também entende.

Ele até pode gerar vídeos que preveem o que provavelmente acontecerá ao tentar pegar uma banana. Esses vídeos não têm uso prático em um armazém, mas mostram a compreensão do robô do que está ao seu redor.

"Se ele consegue prever os próximos quadros em um vídeo, ele consegue identificar a estratégia certa a seguir", disse Abbeel.

A tecnologia, chamada RFM, (modelo fundamental de robótica, para a sigla em inglês), comete erros, assim como os chatbots. Embora muitas vezes entenda o que as pessoas pedem, sempre há a chance de que não o faça. Ele deixa cair objetos de vez em quando.

Gary Marcus, um empreendedor na área de IA e professor emérito de psicologia e ciência neural na NYU, disse que a tecnologia poderia ser útil em depósitos e em outras situações nas quais erros são aceitáveis.

Mas ele disse que seria mais difícil e arriscado implementar em fábricas e em outras situações potencialmente perigosas.

"Isso se resume ao custo do erro", disse. "Se um robô de quase 70 kg pode fazer algo prejudicial, esse custo pode ser alto."

Os pesquisadores acreditam que esse sistema melhorará rapidamente à medida que as empresas o treinam com coleções de dados cada vez maiores e mais variadas.

Isso é muito diferente da forma como os robôs operavam no passado. Geralmente, os engenheiros programavam os robôs para executar o mesmo movimento preciso repetidamente —como pegar uma caixa de um determinado tamanho ou prender um rebite em um local específico no para-choque traseiro de um carro. Mas esses robôs não conseguiam lidar com situações inesperadas ou aleatórias.

Ao aprender com dados —centenas de milhares de exemplos do que acontece no mundo físico— os robôs podem começar a lidar com o inesperado. E quando esses exemplos são combinados com linguagem, os robôs também podem responder a sugestões de texto e voz, como um chatbot faria.

Isso significa que, assim como chatbots e geradores de imagens, os robôs se tornarão mais ágeis. "O que está nos dados digitais pode se transferir para o mundo real", disse Chen.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.