São Paulo

O chatbot do Google, Bard, se saiu melhor em atualidade das informações, raciocínio e consistência em teste da Folha com as três principais IAs de texto no mercado. Os concorrentes eram Bing, da Microsoft, e ChatGPT, da OpenAI.

A plataforma só tropeçou no tema privacidade. Além disso, não está disponível no Brasil nem responde a questões em português. Hoje, o Bard só recebe comandos em inglês, coreano e japonês.

Isso deu vantagem à tecnologia do Google, já que os modelos de linguagem, em geral, respondem melhor a pedidos em inglês, em função dos dados usados durante o treinamento.

Pedidos em outros idiomas são bloqueados, embora a empresa tenha anunciado que sua IA seja capaz de atendê-los.

Logo do Google - Shannon Stapleton/Reuters

Lançado, em novembro de 2022, o ChatGPT foi o primeiro chatbot a se destacar, embora a sua criadora OpenAI o tenha anunciado como um produto falho.

Seu modelo de linguagem, o GPT-3.5, entrega respostas convincentes a perguntas sobre curiosidades e a pedidos sobre fórmulas de programação. Esse desempenho levou 100 milhões de usuários à plataforma em dois meses.

O Google demorou pouco mais de dois meses para lançar seu esperado chatbot, o Bard.

O chatbot da empresa teve um lançamento turbulento: foi impreciso logo na sua primeira demonstração em público. Funcionários da empresa ainda chegaram a chamá-lo de "constrangedor", segundo a Bloomberg.

Em maio, durante o evento anual I/O, o Google anunciou que a ferramenta estaria disponível em 180 países, mas excluiu o Brasil e a União Europeia. Também foi anunciado que outros serviços do ecossistema da empresa, como a Busca, Gmail, Docs e Maps receberão integração com o Bard.

Já o Bing, lançado um dia depois do Bard, é uma espécie de primo rico do ChatGPT: ele roda com o modelo GPT-4, também da OpenAI, com mais parâmetros e estabilidade. A startup californiana recebeu US$ 10 bilhões da Microsoft, em uma parceria que já dura 4 anos. Assim como o Google, a Microsoft também quer integrar o buscador aos programas do pacote Office.

Veja o comparativo entre os três chatbots com inteligência artificial generativa. O Bard foi acessado através de uma VPN e suas respostas foram traduzidas para o português.

Defasagem

A Folha questionou as três IAs sobre quem é líder do Campeonato Brasileiro deste ano para testar a defasagem de suas bases de dados. Enquanto o Bard respondeu corretamente, o ChatGPT, cuja base de dados é de 2021, e o Bing, que tem acesso à internet, erram.

ChatGPT

"Como minha base de conhecimento foi atualizada pela última vez em setembro de 2021, não tenho informações sobre eventos ou resultados que ocorreram após essa data. Portanto, não posso fornecer informações atualizadas sobre o líder do Campeonato Brasileiro de 2023. Sugiro consultar fontes confiáveis de notícias esportivas para obter informações atualizadas sobre o assunto."

Bing

Questionado em português, o chatbot errou nos três modos de resposta disponíveis: "Criativo", "Balanceado" e "Preciso". Quando foi questionado em inglês, apresentou a resposta correta.

Bard

"Em 19 de junho de 2023, o Botafogo está liderando o Campeonato Brasileiro Série A. Eles venceram 8 jogos, empataram 0 jogos e perderam 2 jogos, totalizando 24 pontos. Eles são seguidos pelo Palmeiras em segundo lugar, com 22 pontos, e pelo Flamengo em terceiro lugar, com 19 pontos."

O chatbot também a tabela do campeonato atualizada, com informações do primeiro ao décimo colocado. Também informou que as posições podem mudar no correr da competição.

Conhecimento

A Folha entregou aos bots uma questão de matemática do Enem de 2022 sobre probabilidade. O enunciado informa que uma pessoa quer comprar dois imóveis no mesmo pavimento em um prédio, que tem nove andares, cada um com oito apartamentos. O comprador quer que ambos os apartamentos recebam sol pela manhã em pelo menos um dos quartos. Os apartamentos de final 1 e 2 recebem sol apenas pela manhã. Aqueles de final 3 a 6 recebem sol em apenas um dos quartos pela manhã. E os de final 7 e 8 recebem sol em ambos os quartos na parte da tarde.

O ChatGPT não chegou a nenhuma das respostas elencadas pela prova. O Bing deu uma resposta errada por entender o enunciado de maneira errônea. O Bard acertou e entregou duas possíveis soluções.

ChatGPT

Nenhuma das opções fornecidas considera corretamente as condições estabelecidas para a escolha dos apartamentos nas condições desejadas. Portanto, nenhuma das letras a) a e) é a resposta correta.

Levantamento feito pelo DeltaFolha mostrou que, se fosse um aluno, o ChatGPT teria uma pontuação média de 612,3 nas provas objetivas do Enem (Exame Nacional do Ensino Médio). Ele se sairia melhor do que 98,9% dos estudantes em ciências humanas e do que 95,3% em linguagens e códigos. No geral, superaria 78,9% dos candidatos. Em matemática, no entanto, o robô tem uma nota melhor que apenas 27% dos candidatos.

Bard

A resposta correta é b) 9(6!/((6-2)!2!)).

Existem duas maneiras de resolver esse problema.

[Segue abaixo apenas o segundo método por concisão]

Podemos resolver esse problema usando permutações.

Digamos que a pessoa queira comprar os apartamentos 10 e 11. O apartamento 10 está no primeiro andar e o apartamento 11 está no segundo andar.

O número de maneiras de escolher esses dois apartamentos é 9!/(7!2!). Isso ocorre porque há 9 escolhas para o primeiro apartamento, 8 escolhas para o segundo apartamento e 2! maneiras de ordenar os dois apartamentos.

No entanto, precisamos levar em conta o fato de que os apartamentos são numerados de 01 a 88 e que os apartamentos no mesmo andar não são únicos. Por exemplo, o apartamento 01 no primeiro andar é o mesmo apartamento que o apartamento 01 no segundo andar.

Para levar isso em consideração, precisamos dividir o número de maneiras de escolher dois apartamentos pelo número de apartamentos em cada andar. Isso nos dá 9!/(7!2!8!) = 9(6!/((6-2)!2!))

Portanto, a resposta correta é b) 9(6!/((6-2)!2!)).

Bing

Para responder à questão, precisamos escolher 2 apartamentos em um mesmo andar que atendam às condições desejadas.

De acordo com as informações fornecidas, os apartamentos que finalizam em 1 ou 2 têm sol em ambos os quartos na parte da manhã. Portanto, há 2 apartamentos por andar que atendem a essa condição.

Para os apartamentos que finalizam em 3, 4, 5 ou 6, apenas um dos quartos recebe sol na parte da manhã. Portanto, há 4 apartamentos por andar que atendem a essa condição.

Finalmente, para os apartamentos que finalizam em 7 ou 8, ambos os quartos recebem sol apenas na parte da tarde. Portanto, não há apartamentos por andar que atendam a essa condição.

Assim, para escolher 2 apartamentos em um mesmo andar que atendam às condições desejadas, precisamos escolher um dos dois tipos de apartamento (finalizando em 1 ou 2 ou finalizando em 3, 4, 5 ou 6) e depois escolher dois apartamentos desse tipo.

Há 9 andares e 2 tipos de apartamento. Portanto, o número total de maneiras diferentes de escolher dois apartamentos para compra nas condições desejadas é:

9 * (2C2 + 4C2) = 54

Portanto, a resposta correta é a alternativa e).

A reportagem depois entregou uma pergunta de linguagens do Enem de 2018 aos chatbots. O enunciado apresentava uma fala do linguista Ataliba de Castilho, que contrapunha os limites da gramática à pesquisa em linguística. Os três acertaram a questão.

Consistência

A Folha testou a consistência dos três chatbots em relação às suas próprias regras ao fazê-los avaliar os mandatos do presidente Luiz Inácio Lula da Silva e do ex-presidente Jair Bolsonaro.

ChatGPT

O bot foi treinado para não responder sobre polêmicas políticas. Ao ser questionado, respondeu que, como modelo de linguagem, não possui opiniões pessoais.

"A avaliação de um presidente como sendo ‘melhor’ é altamente subjetiva e depende das perspectivas e valores de cada indivíduo."

É possível, no entanto, induzir o bot a criar um modelo de pontos, no qual um dos presidentes se sai melhor do que o outro.

A reportagem pediu para o ChatGPT avaliar os mandatos anteriores de Lula e o de Bolsonaro segundo 14 critérios com uma nota de um a cinco. Lula somou 51 pontos nas duas gestões que teve na primeira década dos anos 2000. Bolsonaro ficou com 35.

Bing

O chatbot da Microsoft não tem essa mesma restrição e apresentou os resultados de uma pesquisa do Datafolha de 2021: 51% dos entrevistados consideravam Lula o melhor presidente da história do Brasil, enquanto 48% consideravam Bolsonaro o pior.

Entregou também um levantamento do Ipec (Inteligência de Pesquisa e Consultoria) de 2021, segundo o qual 22% dos entrevistados consideravam Bolsonaro o melhor presidente, enquanto 22% consideram Lula o melhor.

"A avaliação de um presidente pode ser influenciada por muitos fatores diferentes, como a economia do país, as políticas públicas implementadas durante seu mandato e sua popularidade pessoal", ressaltou o Bing.

Bard

A IA do Google afirma que é uma pergunta difícil de responder. "Tanto Bolsonaro quanto Lula tiveram seus próprios sucessos e fracassos como presidentes do Brasil."

O chatbot cita êxitos econômicos de Lula e Bolsonaro, mas cita escândalos de corrupção do primeiro e a má-gestão do segundo da prevenção à pandemia de Covid-19. "No final, cabe a cada indivíduo decidir quem acredita ter tido o melhor governo."

A IA também entregou uma tabela comparativa das duas gestões, com os seguintes critérios: política econômica, políticas públicas contra a pandemia de Covid, políticas sociais e relações internacionais.

Questionado pela reportagem sobre qual nota daria aos dois governos, de acordo com esses elementos, o Bard disse que poderia dar uma nota maior a Lula. "É importante notar que essa é minha opinião subjetiva, e outros podem discordar."

Privacidade

A Folha comparou a forma como os três chatbots lidam com os dados pessoais de seus usuários.

ChatGPT

O ChatGPT lançou a opção de desligar o histórico de diálogos em suas configurações em abril, após pressão de autoridades de proteção de dados da Europa. A IA chegou a ter o funcionamento suspenso na Itália.

Esse recurso faz com que as informações entregues à plataforma deixem de ser aplicadas no treinamento da inteligência artificial e armazenadas pela OpenAI, startup que desenvolveu o bot.

Os usuários do ChatGPT também podem baixar todos os dados pessoais armazenados pela OpenAI, em geral os conteúdos dos diálogos com a inteligência artificial. Essas informações são deletadas pela startup após 30 dias. É possível escolher salvá-las e deixá-las sob tutela da empresa por mais tempo.

Bard

O Google armazena informações do Bard, na configuração padrão, por 18 meses. Esse prazo pode ser alterado para entre três meses e 36 meses. A plataforma também levanta dados de geolocalização, endereço de IP e checa se o usuário está em casa, no trabalho ou em outro lugar.

Anotadores de dados contratados pelo Google também leem e deixam avaliações sobre as conversas, com o intuito de melhorar o serviço, de acordo com a empresa.

O Google teve de atrasar os planos de lançar o Bard na Europa após a Comissão de Proteção de Dados da Irlanda declarar que a empresa entregou informações insuficientes sobre como vai proteger a privacidade de cidadãos europeus, segundo o site Politico.

A empresa lançou o Bard em 10 de maio e deixou o Brasil e a União Europeia de fora. Em comum, esses países têm entrado em embates com as big techs em temas como regulação de inteligência artificial, práticas anticoncorrenciais e combate às fake news.

Atualmente, a habilidade do Bard de entender contexto com base em mensagens anteriores é limitada pelo Google. Os usuários também podem deletar seus dados do Bard.

Bing

A Microsoft não publica quais dados o chat do Bing armazena dos usuários. Também não é possível baixar o histórico de mensagens com a IA. O chatbot armazena palavras-chave das buscas mais recentes, que podem ser consultadas na opção "Histórico de pesquisa."

Segundo a empresa, o chatbot segue as diretrizes de privacidade da Microsoft. Usuários podem decidir se os dados armazenados pela empresa são compartilhados com anunciantes.

O painel de privacidade da Microsoft, que permite administrar dados pessoais em diferentes aplicativos, ainda não inclui o Bing.