Reddit quer ser pago por ajudar a ensinar os grandes sistemas de IA

Site é um antigo fórum de discussão sobre grande variedade de temas, e empresas como Google e OpenAI o usaram em seus projetos

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

O Reddit é há muito tempo um espaço popular para conversas na internet. Cerca de 57 milhões de pessoas visitam o site todos os dias para conversar sobre assuntos variados, como maquiagem, videogames e dicas para lavar calçadas.

Nos últimos anos, os diversos chats do Reddit também foram auxiliares de aprendizagem gratuitos para empresas como Google, OpenAI e Microsoft. Elas estão usando as conversas do Reddit para desenvolver sistemas gigantes de inteligência artificial que muitos no Vale do Silício acham que serão o próximo grande sucesso da indústria tecnológica.

Agora o Reddit quer ser pago por isso. A empresa disse na terça-feira (18) que pretende começar a cobrar das grandes companhias pelo acesso à sua interface de programação de aplicativos, ou API, método pelo qual entidades externas podem baixar e processar a vasta seleção de conversas entre indivíduos na rede social.

O novo chefe do Reddit, Steve Huffman, em San Francisco - Jason Henry - 16.jul.2015/NYT

"O corpo de dados do Reddit é realmente valioso", disse Steve Huffman, fundador e executivo-chefe da plataforma, em entrevista. "Mas não precisamos dar todo esse valor de graça para algumas das maiores empresas do mundo."

A medida marca um dos primeiros exemplos significativos de cobrança de uma rede social pelo acesso às conversas que hospeda com o objetivo de desenvolver sistemas de IA como o ChatGPT, o popular programa da OpenAI. Esses novos sistemas de IA podem um dia levar a grandes negócios, mas provavelmente não ajudarão muito empresas como o Reddit. Na verdade, eles podem ser usados para criar concorrentes –duplicatas automatizadas das conversas do Reddit.

O movimento do Reddit também ocorre enquanto ele se prepara para uma possível oferta pública inicial em Wall Street ainda este ano. A empresa, fundada em 2005, ganha a maior parte de seu dinheiro com transações de publicidade e comércio eletrônico em sua plataforma. O Reddit disse que ainda está acertando os detalhes de quanto cobrará pelo acesso à API e anunciará os preços nas próximas semanas.

Os fóruns de conversa do Reddit tornaram-se commodities valiosas, pois os grandes modelos de linguagem, ou LLMs, são uma parte essencial da criação de uma nova tecnologia de IA.

Os LLMs são essencialmente algoritmos sofisticados desenvolvidos por empresas como Google e OpenAI, que é um parceiro próximo da Microsoft. Para os algoritmos, as conversas do Reddit são dados, que estão entre o vasto conjunto de material que é alimentado nos LLMs para desenvolvê-los.

O algoritmo subjacente que ajudou a construir o Bard, serviço de IA conversacional do Google, é parcialmente treinado nos dados do Reddit. O Chat GPT da OpenAI cita os dados do Reddit como uma das fontes de informação nas quais foi treinado.

Outras empresas também estão começando a ver valor nas conversas e imagens que hospedam. A Shutterstock, serviço de hospedagem de imagens, também vendeu dados de imagens para a OpenAI para ajudar a criar o Dall-E, programa generativo de IA que cria imagens gráficas novas e vívidas precisando apenas de um comando em texto.

No mês passado, Elon Musk, dono do Twitter, disse que estava reprimindo o uso da API do Twitter, que é usada por milhares de empresas externas e desenvolvedores independentes para rastrear os milhões de conversas que ocorrem na rede. Embora ele não tenha citado os LLMs como motivo para fazer a mudança, as novas taxas podem chegar a dezenas ou mesmo centenas de milhares de dólares.

Para continuar melhorando seus modelos, os fabricantes de inteligência artificial precisam de duas coisas importantes: uma enorme quantidade de poder de computação e uma enorme quantidade de dados. Alguns dos maiores desenvolvedores de IA têm muito poder de computação, mas ainda procuram fora de suas próprias redes os dados necessários para melhorar seus algoritmos. Isso inclui fontes como Wikipedia, milhões de livros digitalizados, artigos acadêmicos e o Reddit.

Representantes do Google, Open AI e Microsoft não responderam imediatamente a pedidos de comentários.

O Reddit há muito tem uma relação simbiótica com os mecanismos de busca de empresas como Google e Microsoft. Os mecanismos de busca "rastreiam" as páginas do Reddit para indexar informações e disponibilizá-las para resultados de busca. Esse rastreamento, ou "raspagem", nem sempre é bem-vindo em todos os sites da internet. Mas o Reddit se beneficiou ao aparecer mais alto nos resultados de pesquisas.

A dinâmica é diferente com os LLMs –eles devoram o máximo de dados que podem para criar novos sistemas de IA como os chatbots.

O Reddit acredita que seus dados são especialmente valiosos porque são atualizados continuamente. É dessa novidade e relevância, disse Huffman, que os algoritmos dos grandes modelos de linguagem precisam para produzir os melhores resultados.

"Mais do que qualquer outro lugar na internet, o Reddit é um lugar de conversas autênticas", disse Huffman. "Há muitas coisas no site que você só diria na terapia, ou no AA, ou nunca."

Huffman disse que a API do Reddit ainda será gratuita para desenvolvedores que desejam criar aplicativos que ajudem as pessoas a usar o Reddit. Eles poderiam usar as ferramentas para criar um bot que verifique automaticamente se os comentários dos usuários seguem as regras de postagem, por exemplo. Os pesquisadores que desejarem estudar os dados do Reddit para fins acadêmicos ou não comerciais continuarão tendo acesso gratuito a eles.

O Reddit também espera incorporar mais o chamado aprendizado de máquina na forma como o próprio site opera. Ele pode ser usado, por exemplo, para identificar o uso de texto gerado por IA no Reddit e adicionar um rótulo que notifique os usuários de que o comentário veio de um bot.

A empresa também prometeu melhorar as ferramentas de software que podem ser usadas pelos moderadores –usuários que oferecem seu tempo para manter os fóruns do site funcionando sem problemas e melhorar as conversas entre os usuários. E os bots de terceiros que ajudam os moderadores a monitorar os fóruns continuarão sendo suportados.

Mas para os fabricantes de IA é hora de pagar.

"Rastrear o Reddit, gerando valor sem retornar nada desse valor para nossos usuários, é um problema para nós", disse Huffman. "É um bom momento para ajustarmos as coisas."

"Achamos que é justo", acrescentou.

Tradução de Luiz Roberto M. Gonçalves

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.