Inteligência artificial cria até sites jornalísticos falsos e detectá-los é desafio

Modelo da OpenAI tem apenas 26% de acerto em reconhecimento de textos gerados por IA; veja outras soluções

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

São Paulo

Ao menos 217 sites sem credibilidade entregam textos com características de notícia gerados por inteligência artificial pelo mundo, de acordo com o serviço de confiabilidade na internet NewsGuard. Esses conteúdos circulam em inglês, português e outros dez idiomas. Entre os portais, 141 são desinformativos.

Esses portais publicam material feito por robôs com pouca ou nenhuma edição humana, de acordo com a NewsGuard. Quem encontra os sites em mecanismos de busca terá dificuldades para identificar se o conteúdo em questão foi gerado por máquina.

O detector da startup criadora do ChatGPT, OpenAI, por exemplo, entrega respostas corretas em apenas 26% das tentativas que faz. Os seres humanos também são ruins em discernir a realidade da ficção, disse à Folha Chelsea Manning, do WikiLeaks, durante sua última viagem ao Brasil.

Imagem mostra pessoas em um churrasco no quintal de uma casa. No meio da imagem, é possível ver uma coluna de fogo sobre as pessoas. Há outros focos de incêndio pelo gramado. No fundo, há uma casa.
Comercial de cerveja fictício feito por inteligência artificial - Reprodução @privateislandtv no Instagram

O próprio NewsGuard encontrou esses sites com pesquisas no Google e no Bing, da Microsoft. Buscou estruturas frasais comuns em respostas do ChatGPT e encontrou os portais supostamente noticiosos.

O site brasileiro Notícias de Emprego foi um dos 217 endereços em questão. Só no mês de maio, recebeu 3.100 visitas, de acordo com o Similar Web.

O número faz o portal estar entre os 350 mil mais vistos do país —parece pouco, mas o Brasil tem mais de 14 bilhões de sites, de acordo com o CGI.br (Comitê Gestor da Internet). O Notícias de Emprego não divulga informações de contato e não consta na plataforma registro.br, que reúne informações sobre sites brasileiros.

A página divulga textos sobre concursos e oportunidades de traalho, chamativos em um país com 10 milhões de desempregados. O conteúdo tem base em outras publicações da internet brasileira e conta com erros de acentuação e pontuação que criam confusões entre valores salariais.

Essa facilidade para gerar textos pode acelerar a desinformação e o cibercrime, dizem especialistas desde a popularização do ChatGPT, que conseguiu 100 milhões de usuários em dois meses de funcionamento.

No meio audiovisual, a empresa DeepMedia, que produz ferramentas para detectar conteúdo digital sintético, estima que o número de deepfakes em vídeo se multiplicaram por três em 2023, em relação a 2022. Em áudio, por oito. Isso, em ano de eleição nos EUA.

O Partido Republicano veiculou um anúncio inteiro produzido por IA —do roteiro às imagens forjadas do que a propaganda alegava ser o futuro norte-americano sob gestão democrata.

Clonar uma voz hoje custa uma assinatura de US$ 22 do site Synthesia, enquanto requeria US$ 10 mil em custos de servidor até o fim do ano passado, conforme relatório da DeepMedia.

A detecção de imagens e vídeos gerados por IA, todavia, é mais simples do que a identificação de textos. Imagens feitas pelas plataformas Dall-E, Stable Diffusion e Midjourney, por exemplo, carregam selos para atestar sua origem em nuvens computacionais. Ainda assim, as imagens do Papa Francisco em um casaco futurista causaram estardalhaço na internet.

O professor de ciência da computação Marcelo Finger, do Instituto de Matemática e Estatística da USP, diz que um vídeo gerado por IA pode contar, sem muitas dificuldades, com um padrão anômalo e criptografado de pixels para indicar a autoria de máquina. "Nem seria perceptível ao olho humano."

Em texto, isso é mais difícil, apesar de possível, segundo Finger. "Depende do interesse das empresas em querer explicitar que o material foi feito por IA."

O Synthesia coloca selos ruidosos na versão gratuita e entrega conteúdo limpo e de difícil detecção a quem paga a assinatura. A startup a não respondeu à questão da reportagem sobre o interesse da empresa em atestar a origem do material gerado por sua IA.

Contudo, enviaram à Folha anúncio sobre a rodada de investimento realizada em 13 de junho que tornou a empresa um unicórnio.

Outra opção, segundo o professor da USP Marcelo Finger, são os modelos de detecção gerados por IA, como o classificador da OpenAI. O serviço de nuvem da Amazon, AWS, também apoia um desses projetos, o GPTZero.

Estudo que comparou o desempenho de sete dessas plataformas mostrou que elas tiveram uma média de 88% de acertos, enquanto uma precisão aceitável em ciência fica em 95%. Além disso, menos da metade das respostas é unânime entre as plataformas, o que indica alta possibilidade de falsos positivos.

Uma terceira possibilidade é produzir análises sintáticas para identificar padrões de linguagem das IAs geradoras de texto. O laboratório do professor Marcelo Finger, C4AI (Center for Artificial Intelligence), trabalha em uma solução nesse sentido para o português.

"Só vamos saber o quão bem funciona daqui a uns meses, quando tivermos concluído nosso trabalho."

O ChatGPT parece ter total domínio do idioma, mas repete estruturas formais, já que entrega a resposta mais provável com base em estatística, de acordo com Finger.

Professoras da Universidade do Arkansas, nos EUA, Heather Desaire e Romana Jorosova usaram método semelhante para identificar textos escritos por inteligência artificial, com 99% de sucesso para artigos completos e 92% para detecções por parágrafo.

Estudo comparou artigos da revista Science com reproduções feitas pelo ChatGPT. O trabalho teve base em 192 documentos —é pouco em comparação com os corpus imensos usados para treinar IAs, mas ainda estatisticamente relevante.

Cientistas, no geral, recorrem a parágrafos longos e tendem a usar palavras de maneira equivocada, como conjunções adversativas em contextos errados (contudo, todavia, entretanto). Acadêmicos não usam linguagem coloquial ou emocional em seus textos.

De acordo com as autores, o método pode ser reproduzido e melhorado por outros cientistas com interesse na área, o que aumentaria a precisão da técnica. Os testes funcionaram para diferentes áreas do conhecimento.


COMO DETECTAR CONTEÚDO DE IA

Texto

Textos gerados por inteligência artificial costumam não conter erros ortográficos ou usos imprecisos de conectivos, como (contudo, todavia, entretanto, apesar de, entre outros). No português, chatbots costumam carregar suas respostas de advérbios e adjetivos.

Textos gerados pelo ChatGPT e pelo Bard costumam carecer de fonte, embora o Bing, da Microsoft, costume referenciar todas as suas respostas.

É possível recorrer a plataformas que identificam se passagens foram geradas por inteligência artificial, como GPTZero, DetectGPT e o classificador da OpenAI.

Imagem

Conteúdos visuais gerados por IAs podem ter objetos de tamanho incoerente ou detalhes errados em pés e mãos. Checar se há uma coesão entre o tamanho e a orientação das sombras também pode ajudar, segundo o pesquisador do Oxford Internet Institute, Adriano Belisário, especialista em checagem de fatos.

Ele recorda, porém, que essas falhas em imagens geradas por IA não vão ser constantes, já que as próprias plataformas tentam corrigir erros, ao receberem retornos do público. Além disso, a curadoria humana sobre os materiais feitos por inteligência artificial podem filtrar erros.

Vídeos

Os atuais vídeos criados por IA podem ter as mesmas inconsistências apontadas em imagens. Além disso, os frames podem ter defeitos de continuidade e a imagem pode ter um aspecto esfumaçado.

Áudios

Segundo a plataforma geradora de vozes Speechify, áudios criados por IA podem deixar a desejar em variação de tom e apelo emocional.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.