Descrição de chapéu Inteligência artificial

Clones digitais com inteligência artificial bagunçam entendimento de realidade

Robôs para imitar voz e vídeo evoluem e cada vez mais confundem

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

São Paulo

Um áudio de uma pessoa lendo metade deste texto é o suficiente para gerar um clone digital de sua voz. Serão menos de cinco minutos de gravação, mais do que o bastante para uma IA (inteligência artificial) imitar sua fala com uma fidelidade capaz de confundir, ao custo de US$ 5 (R$ 25).

Para gerar um vídeo copiando seu rosto, seria necessário filmar essa mesma leitura três vezes. Nesse caso, a imagem precisa ser em, pelo menos, resolução 4k, com boa iluminação.

É recomendável usar uma tela verde de estúdio no fundo para facilitar o recorte. O custo é de US$ 500 (R$ 2,5 mil) anuais e o resultado é um conteúdo útil, mas que ainda acusa sua artificialidade. A perspectiva, no entanto, é de que a estranheza dure pouco.

A promessa para a tecnologia é de avanço a galope, facilitando serviços audiovisuais, mas também bagunçando ainda mais as linhas entre o que é informação real e o que não é.

A Folha testou as aplicações em português de dois dos principais serviços de clonagem digital. O primeiro deles, da ElevenLabs, permite imitar vozes em todos os seus planos pagos, a partir de US$ 5. Nas opções mais caras, aumentam a quantidade e qualidade das criações.

Lançada em janeiro, a empresa diz já ter passado de um milhão de usuários. Com suas ferramentas, mira criar um sistema de dublagem instantânea para múltiplos idiomas, mantendo a sonoridade original, até o fim do ano.

A imitação é gerada instantaneamente após o sistema receber a amostra de áudio no próprio site da plataforma. O conteúdo original precisa ter entre dois e cinco minutos, e o que mais importa é sua qualidade (sem ruídos). A IA pode ler qualquer texto com a voz clonada.

Nos testes, os melhores resultados foram com áudios com qualidade profissional, gravados em estúdio. No resultado, o timbre é parecido com o original, mas o ritmo monótono da fala sintética causa estranheza.

Usando voz gravada pelo celular, o resultado foi inutilizável. A IA compensa a falta de qualidade misturando a voz clonada com outras no áudio final, bagunçando sonoridade e sotaque. Ao extrair de vídeos no YouTube, algo que um golpista também poderia fazer, a situação melhora.

Para testar a inteligência artificial da Elai, que gera vídeos, a reportagem filmou a leitura de um mesmo texto três vezes, cada uma com cerca de dois minutos. Uma alternativa seria usar fotos para o treinamento.

As instruções eram falar pausadamente, com pouco movimento e encarar diretamente a câmera. Os deslizes cometidos na última exigência se refletiram no clone, que, por vezes, desvia o olhar —a empresa alertou para esse impacto e sugeriu que fosse feita nova gravação, o que não ocorreu.

A manipulação é evidente. O avatar tem o corpo travado e não apresenta expressão facial. Os lábios abrem e fecham, mas não casam com o que é dito. O movimento da cabeça, por outro lado, simula com precisão o original. No fim, até lembra uma pessoa conversando e gera vídeos aceitáveis, mas ainda não são uma boa opção para o eventual influenciador digital que queira deixar um robô cobrindo suas férias.

As gravações para alimentar a IA foram enviadas por email para a equipe da Elai e, três dias depois, o modelo personalizado estava disponível no sistema onde os vídeos são criados. Tirando a filmagem, nada exigiu conhecimento técnico e criar um vídeo levou poucos minutos.

O serviço custaria US$ 500 por ano, o que inclui a geração e manutenção do avatar, bem como o acesso à plataforma, e foi oferecido gratuitamente à Folha para os testes.

A tecnologia visa baratear as produções de conteúdo audiovisual. "Criar um vídeo de um minuto pode levar até cinco horas, sem contar a tradução. Com IA, leva 10 minutos, e com um clique está em vários idiomas", afirma Vitalii Romanchenko, CEO da Elai. Ele diz que a empresa tem aproximadamente 2.000 clientes, a maioria concentrada nos EUA e Europa Ocidental.

Ficam atrás da Synthesia, referência no setor. Em nota, a empresa diz ter 15 mil clientes corporativos, que aplicam sua tecnologia à criação de materiais de treinamento, vídeos institucionais e marketing de produtos.

Reprodução de tela de computador. À esquerda, vários quadros são exibidos um embaixo do outro, alguns mostram o repórter com fudno branco, outros verde e alguns com um escritório no fundo. Ao centro, aparece a imagem do repórter visto do peito para cima em um fundo branco, com uma caixa de texto baixo dizendo "Este é um avatar virtual do Raphael Hernandes, repórter da Folha de São Paulo. O clone foi gerado pela plataforma da Elai, a partir de vídeos do Raphael". À direita, um outro menu permite incluir imagens e gifs
Sistema de criação de vídeos, direto no site da Elai, lembra um programa de slides (estilo Power Point); cada quadro é um trecho do vídeo e a plataforma permite incluir fundos diferentes, textos, além de reposicionar o clone digital - Elai

EVOLUÇÃO E PERIGOS

A expectativa de especialistas é de um rápido aprimoramento dessas IAs. "Ainda é o começo dessa tecnologia", afirma Romanchenko. O executivo cita que, agora, o principal desafio é que os avatares façam gestos e expressem emoções.

Esse desenvolvimento traz também preocupações. A facilidade no uso torna essas IAs atraentes para golpes, ataques hackers e desinformação. Com uma fala sintética, uma repórter do jornal The Wall Street Journal enganou o reconhecimento de voz do seu banco nos EUA por telefone.

"Eu já vejo criminosos aprendendo a usar IAs que manipulam vídeo para se parecerem visualmente com alguém de confiança", diz Marina Ciavatta, CEO da Hekate, empresa de treinamentos em cibersegurança.

Segundo a especialista, uma das táticas é usar informações das redes sociais para deixar os golpes mais convincentes, por isso recomenda limitar a exposição online. É, ainda, bom manter o desconfiômetro ligado e verificar informações em meios de comunicação diferentes.

As empresas do setor tentam barrar o mau uso de suas ferramentas ao exigir que os usuários declarem ter o direito de utilizar a imagem ou o som para gerar mídia sintética. Na prática, isso pode ser facilmente contornável. Com a ElevenLabs, por exemplo, basta preencher uma pergunta dizendo ter autorização para usar aquela voz ao criar o clone.

A Synthesia exige que as pessoas clonadas digitalmente gravem uma frase específica para autorizar o uso de suas imagens. Ou seja, um consentimento em vídeo.

As empresas também dizem moderar o conteúdo gerado nas plataformas. Usam um misto de moderação humana e automatizada para barrar usos que violem suas políticas, como gerar discriminatórios.

No último dia 15, a ElevenLabs lançou uma ferramenta para detectar áudios gerados com sua tecnologia com, segundo a empresa, 99% de precisão caso não tenha sido editado posteriormente. O sistema acertou a classificação em todos os testes feitos pela reportagem, com 20 arquivos de áudio sintéticos e reais.

Esse tipo de ferramenta de detecção ainda não é amplamente difundida. As próprias empresas não sabem dizer com precisão se vídeos foram feitos usando sua tecnologia. Hoje, é possível se apoiar nas inconsistências dos conteúdos para flagrar a mídia sintética, mas esse cenário muda rapidamente conforme as IAs melhoram.

"Estamos falando de coisa de um ano para ficarem tão realistas que o consumidor médio terá muita dificuldade de separar o real do sintético", diz Sophie Nightingale, professora de psicologia na Universidade de Lancaster (Inglaterra).

Uma pesquisa da qual ela fez parte avaliou a capacidade de pessoas diferenciarem rostos reais daqueles gerados por IA em fotos --categoria mais avançada do que os vídeos. O resultado: são indistinguíveis e, na média, os participantes do estudo classificaram as pessoas falsas como aparentando ser mais confiáveis.

Nessa área, o impacto começa a aparecer. Recentemente, uma suposta imagem do Papa de casacão branco confundiu a internet e retratos de uma falsa prisão do ex-presidente americano Donald Trump deram o que falar.

Grupos de empresas do setor tentam mitigar esses efeitos ao adicionar informações aos arquivos que permitam identificar mídias geradas por IA, uma espécie de etiqueta apontando a manipulação, mas a adesão a práticas que facilitem a detecção do conteúdo sintético não é obrigatória. Elai e Synthesia integram a "Content Authenticity Initiative" ("Iniciativa da Autenticidade do Conteúdo"), uma dessas coalizões.

O desafio de aprender a navegar num mundo com maior dificuldade de distinguir real e sintético permanece em aberto. "Por um lado, não queremos que as pessoas simplesmente aceitem tudo o que veem e ouvem como verdade, porque sabemos que o conteúdo pode ser manipulado. Por outro, não queremos minar totalmente nossa sociedade e democracia porque as pessoas não confiam em mais nada", diz Nightingale.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.