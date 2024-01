São Paulo

O Google lançou na terça-feira (23) um novo modelo de inteligência artificial gerador de vídeos, o Lumiére —uma referência aos irmãos criadores do cinema. O material de apresentação mostra uma sequência de imagens surreais em qualidade surpreendente na comparação com aquelas geradas por outros modelos no mercado.

Ainda sem data para chegar ao público, a IA colocou animais para executarem atividades humanas, deu movimento a obras consagradas das artes plásticas e criou cenários fictícios, como um astronauta a caminhar por marte.

De acordo com o artigo publicado por engenheiros do Google, as imagens geradas pela nova tecnologia mantém coerência ao longo do tempo, diferente de outras plataformas disponíveis do mercado, como a Runway, já testada pela Folha. Cada trecho gerado tem cinco segundos (80 quadros a uma frequência de 16 quadros por segundo).

Vídeos gerados pela inteligência artificial do Google não apresentam inconsistência na imagem ou na sequência de ação - Reprodução/Google

Isso é possível porque a rede neural usada para treinar a inteligência artificial usa uma técnica inédita, que considera o vetor temporal, além da composição e cores do quadro. Assim, o fator tempo entra na conta. Veja como funciona no esquema abaixo.

Vetor temporal considerado na convolução da rede neural faz imagens manterem sequência lógica entre si - Reprodução/Google

A técnica também permite que as imagens geradas mantenham alta qualidade. Veja os vídeos gerados pela equipe do Google e que foram disponibilizados no artigo.

O Lumiere vem na sequência do Imagen Video de 2022, que entregava sequências com 24 frames por segundo, nem sempre coerentes.

A dona do Instagram, Meta, também já havia divulgado em novembro o Emu Vídeo que anima imagens estáticas —também não disponível ao público. Esse também é uma melhoria do Make-A-Video de 2022.

Em um ano marcado por eleições, IAs geradoras de vídeo geram receios sobre a possibilidade de impulsionamento de deepfakes —vídeos falsos que simulam aparência e voz das vítimas para distorcer a realidade.

A criadora do ChatGPT, OpenAI, por exemplo, proíbe que seu modelo gerador de imagens copie a aparência de pessoas reais.

Outras plataformas geradoras de vídeo, porém, já circulam na internet. O Runway Gen 2, por exemplo, está aberto para testes desde junho do ano passado.

O modelo de código aberto Stable Video Diffusion, lançado em novembro, foi capaz de gerar um deepfake do ator Will Smith comendo Spaghetti. O material, porém, é mais cômico do que verossímil.

COMO FUNCIONA O LUMIERE

O Lumiere gera vídeos a partir de texto, em um sistema similar ao ChatGPT. Basta ao usuário descrever a cena que quer criar. Foi assim que o Google criou a cena de um cachorro vestido em óculos descolados dirigindo pelas ruas de San Francisco.

A plataforma também é capaz de animar imagens estáticas, a partir de uma descrição. A arte ou foto também pode servir de referência de estilo para o modelo de IA.

Outra inovação do Lumiere é a opção de editar apenas parte do vídeo. Dessa forma, é possível alterar roupas de um personagem gravado ou alterar objetos de um cenário.