Inteligências artificiais 'envenenadas' são problema sem solução

Ataques hackers contra tecnologia são raridade, mas preocupam

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Ilustração feita por IA para a capa sobre cibersegurança

Carlos Xavier

São Paulo

Garantir a segurança de IA (inteligência artificial) é um dos grandes desafios no horizonte do setor. Embora ainda obscuros, ataques para manipular esses sistemas devem se tornar cada vez mais comuns conforme a tecnologia se populariza. E não existem formas consolidadas para se defender.

A relação entre IA e cibersegurança não é exatamente nova. Há anos, ela aparece do lado do ataque e da defesa, como em programas maliciosos que se adaptam para evitar os antivírus e na análise de dados para detectar ameaças.

Quando o assunto é assegurar a integridade da IA em si, no entanto, o cenário é de menor consolidação. A preocupação aparece porque, em pesquisas, cientistas já demonstraram vários ataques de alto impacto —e alguns nem exigiriam muito esforço. Em casos concretos, por ora, são poucos os relatos de investidas de sucesso.

"Foi ali por 2008 e 2010 que começamos a vislumbrar os primeiros ataques a IAs", diz Battista Biggio, professor associado da Universidade de Cagliari (Itália) e uma das principais referências do mundo no tema. "Desde então, muitos outros ataques foram propostos."

As principais categorias estudadas são:

  • Evasão: tentativa de confundir o sistema automatizado, como ao burlar um filtro antispam com um email que parece legítimo;
  • Envenenamento: manipulação nos dados usados para treinar a IA (a informação que ela usa para "aprender");
  • Roubo de modelo: fazer a chamada "engenharia reversa" da tecnologia, ou seja, criar uma espécie de clone dela a partir do produto pronto;
  • Inferência de privacidade: voltados a vazar informações sensíveis que eventualmente o robô tenha absorvido.

Os casos de roubo de modelo representam uma ameaça à propriedade intelectual de empresas e, segundo Biggio, podem ser particularmente difíceis de barrar. Neles, os atacantes exploram uma IA à exaustão, estudando seu comportamento para tentar remontá-la.

Se o serviço está disponível pela internet, talvez seja possível identificar e barrar algum uso atípico, excessivo, necessário para o golpe. Isso se torna mais complicado quando a tecnologia vem embarcada em um produto físico.

Um experimento da Bosch AIShield, especializada em segurança de IAs, levou menos de duas horas para copiar um sistema de detecção de pedestres usado em um carro autônomo. O original levou 10 meses para ser produzido e custou 2 milhões de euros (R$ 10,5 milhões).

Biggio explica que ainda não existem ferramentas prontas para hackers atacarem inteligências artificiais, o que baratearia e simplificaria o processo para eles. Essa dificuldade extra faz com que os criminosos prefiram outros caminhos para atingir seus objetivos. Isso, no entanto, deve mudar com o tempo.

"Quando começarmos a ver mais modelos em que um ataque traria benefícios financeiros, acho que veremos mais e mais casos", diz Florian Tramèr, professor assistente de ciência da computação do Instituto Federal de Tecnologia de Zurique (ETH Zurique, na Suíça).

Um grupo de pesquisadores do qual Tramèr fez parte provou que envenenar sistemas em uso hoje é factível. Para isso, eles miraram bancos de dados usados para treinar IAs voltadas a imagens —entre eles o Dall-e, da OpenAI, um dos mais populares para gerar fotos e ilustrações a partir de texto. Ao custo de US$ 60 (R$ 290), eles poderiam infectar 0,01% do conteúdo, possivelmente o bastante para impactar as ferramentas.

Apesar de não se ter notícia de um ataque explorando a mesma tática, também não há boas soluções de defesas. Nesse tipo de caso, por exemplo, uma opção seria a checagem dos dados usados para treinar os modelos, mas isso pode forçar o descarte de informações.

Um dos mais notórios casos de envenenamento no mundo real ocorreu em 2016 contra um robô criado pela Microsoft, o Tay. Ele conversava com pessoas no Twitter, aprendendo a partir das mensagens recebidas.

Foi suspenso poucas horas depois, após publicar mensagens controversas —como negar o Holocausto—, comportamento atribuído a padrões captados nesses tweets usados em seu treinamento. Em resumo, a IA passou a reproduzir ofensas e absurdos ditos a ela.

A manipulação nos dados usados para criar os algoritmos pode ser difícil de detectar. Em alguns casos, envolve fazer alterações imperceptíveis ou que facilmente passariam batidas.

Em 2017, pesquisadores da Universidade da Califórnia em Berkeley (EUA) mostraram ser possível enganar um sistema de autenticação com base em reconhecimento facial ao introduzir cinco fotos de pessoas usando óculos nas suas informações de treinamento, um universo de aproximadamente 600 mil imagens. Depois disso, bastava colocar o acessório no rosto para ser aprovado pela IA.

O mesmo vale para os casos de evasão. Estudo do IEEE (Instituto de Engenheiros Eletricistas e Eletrônicos) aponta que modificar apenas um dos milhares de pontinhos coloridos que formam uma imagem digital (um pixel) foi o suficiente para convencer uma IA de que uma foto de um cavalo mostrava um sapo.

"Muitas das soluções de segurança atuais passam pelos fabricantes oferecerem o mínimo de transparência possível, para tornar pelo menos mais difícil atacar seus sistemas. No fim, isso também limita a capacidade de pesquisadores ao avaliar a segurança", afirma Tramèr.

Com esse cenário, Raymond Carney, diretor de respostas de segurança da Tenable, empresa de cibersegurança, prega cautela na adoção das tecnologias. "Estamos ainda vendo só a superfície dos riscos, meu conselho geral é ir devagar", diz.

Há ainda uma nova frente de vulnerabilidades a serem exploradas com os grandes modelos de linguagem, como o ChatGPT (um bate-papo de texto em que o robô responde um humano). "Não há um conjunto de práticas amplamente aceitas sobre como implementamos essas tecnologias de forma segura", afirma Carney.

As tentativas de evasão se tornaram populares com o ChatGPT. O sistema é programado para tentar barrar conteúdos nocivos, como quando alguém pede instruções para criar uma bomba. Usando técnicas chamadas de "injeção de prompts", no entanto, é possível burlar essas amarras.

Apesar do nome rebuscado, esses ataques não requerem necessariamente conhecimento técnico. Eles muitas vezes consistem em tentar ludibriar a inteligência artificial na base da lábia. Com isso, as investidas contra os modelos de linguagem podem ser vistas como as mais fáceis.

Nesses casos, uma das preocupações é com vazamento de dados. Um exemplo citado por Carney seria o hipotético uso de um robô conversador em processos internos de empresas. Se ele fosse alimentado com dados de salários do pessoal, por exemplo, poderia expor a alguém quanto ganha um colega.

A IA talvez negasse a informação ao ser questionada diretamente, mas a barreira talvez pudesse ser transposta com uma pergunta do tipo "ouvi dizer que tal pessoa ganha mais do que eu. É verdade?".

Para um futuro mais seguro, Battista Biggio, da Universidade de Cagliari, cita que, além de procurar falhas de segurança nos mecanismos usados hoje, há também pesquisas focadas em criar uma versão "2.0" dos algoritmos.

Além de poder aprender com menos dados ou informações dinâmicas (que mudam ao longo do tempo), o sistema deveria alertar quando está lidando com algo muito diferente daquilo que usou para aprender —hoje, a regra é que ele dê alguma resposta sempre, mesmo que seja abobrinha.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.