No momento da redação deste artigo, a OpenAI está no meio de uma grande batalha legal. Uma empresa na Califórnia está alegando que a OpenAI violou a privacidade de seus usuários enquanto treinava seu chatbot ChatGPT. Por causa dessa afirmação e da quantidade de dados que a empresa coletou para seu chatbot, isso pode ter algumas implicações importantes para a OpenAI e outras empresas de IA. A questão é: a OpenAI está errada nesta situação?
Qual é o caso?
Uma vez que você veja do que se trata este caso, é fácil entender a gravidade da situação. Agora, a IA é como um cérebro humano; ele precisa ser treinado. precisa ser ensinado. As empresas alimentam toneladas de dados em seus LLMs (Large Language Models) para que possam aprender. Quanto mais os LLMs souberem, mais úteis eles podem ser. O Google é uma das principais empresas de IA porque tem acesso a um bilhão de toneladas de dados por meio da pesquisa do Google, Android etc.
No caso do ChatGPT, ele também utiliza um LLM que precisa ser treinado; e a empresa o treinou usando uma tonelada de dados. O problema está em alguns dos lugares onde obteve essas informações. A empresa usou uma infinidade de dados da internet. Isso inclui um monte de dados que as pessoas carregaram sem dar consentimento para serem usados por um chatbot de IA.
Estamos falando de artigos, postagens de blog, contos, roteiros, poemas, postagens de mídia social etc. A lista é infinita. Como o conhecimento do ChatGPT é tão antigo, não há como dizer quantos dados das pessoas foram usados para treinar o ChatGPT. O processo diz que esta informação foi obtida sem o consentimento do postador original.
É por isso que OpenAI está em apuros. A escala absoluta de informações que o OpenAI alimentou no ChatGPT é gigantesca. Se o tribunal considerar que a empresa é culpada, isso pode significar más notícias para a IA em geral.
Então, a OpenAI está errada?
É o oeste selvagem para a IA, já que os legisladores ainda estão descobrindo como regulá-la. Enquanto eles estão lutando com a legalidade da IA, os Joes comuns estão lidando com a moralidade dela. A OpenAI está errada por usar tantos dados para treinar o ChatGPT?
Pode-se argumentar que sim.
Grande parte desse argumento vem da controvérsia com a arte gerada por IA. Há um protesto contínuo contra essa tecnologia porque ela dá às pessoas a capacidade de criar imagens instantaneamente com nada além de palavras. Assim como no ChatGPT, os geradores de imagens AI precisam ser alimentados com imagens de arte de artistas humanos. Muitos artistas humanos não querem que sua arte seja usada para treinar esses bots de imagem.
Bem, pense nas pessoas tendo seu conteúdo escrito usado para treinar o ChatGPT. Assim como os geradores de imagens podem acabar com os artistas, os chatbots também podem acabar com os escritores. Os chatbots podem gerar artigos, histórias curtas, scripts, postagens de blog etc. em questão de segundos. Por que contratar e pagar um redator humano quando você pode apenas gerar seu conteúdo? Compreensivelmente, os escritores humanos que passaram anos desenvolvendo seu ofício não querem que seu conteúdo seja usado para treinar a própria máquina que poderia tirá-los do trabalho.
São pessoas que precisam colocar seu trabalho lá fora para ganhar a vida. Jornalistas publicam seus artigos em sites públicos, escritores fazem postagens em blogs para sites públicos de empresas, etc. Eles fazem isso para compartilhar seu ofício com os leitores e, com sorte, inspirar outros escritores. Eles não assinaram para ter seu trabalho raspado e usado para treinar chatbots de IA.
Outros podem argumentar que não
Há dois lados nesse argumento. Quando artistas, escritores e músicos publicam seus trabalhos online, eles correm o risco de usá-los para outros fins. Não é muito diferente de ter seu conteúdo roubado e plagiado. Os criadores divulgam seu conteúdo com o entendimento de que ele pode ser levantado e usado para outros fins.
A conversa fica ainda mais complicada se o conteúdo não for protegido por direitos autorais. Se o seu conteúdo estiver disponível gratuitamente na internet para qualquer um pegar, então a OpenAI pode ter o direito de usá-lo para treinar o ChatGPT.
Se a OpenAI perder o caso, pode ser uma coisa boa
Aqueles de vocês que usam o ChatGPT para escrever seus ensaios provavelmente torcem para que o OpenAI ganhe o caso. No entanto, se a empresa perder o caso, pode não ser a pior coisa. Claro, a OpenAI enfrentará uma perda financeira, o que não é bom para a empresa. No entanto, se o tribunal vencer este caso, isso pode ajudar a impulsionar a regulamentação da IA.
Como afirmado antes, é o oeste selvagem lá fora para a regulamentação da IA. Os legisladores estão lutando para controlar o desenvolvimento da IA e garantir que ela não tenha efeitos negativos. O direito das pessoas ao seu conteúdo nunca esteve tão ameaçado, pois geradores de imagens de IA e chatbots de IA estão surgindo em todo o lugar. O conteúdo de toda a Internet está sendo coletado e usado para esses LLMs, e não há como interromper isso.
Se a OpenAI perder esse caso, ela trará esse problema para o primeiro plano. Isso fará com que as pessoas falem sobre como esses LLMs estão obtendo suas informações. As pessoas estão chorando para que a IA seja regulada neste momento. Está fazendo com que as pessoas percam seus empregos. Os criadores independentes estão sendo superados por pessoas sem talento que geram conteúdo e o comercializam. Alguém pode facilmente criar uma “música” gerada por IA e comercializá-la no Spotify. Imagine lançar um álbum inteiro em um dia ou uma semana e obter renda com isso.
O mesmo vale para “artistas” e “autores” de IA. Já pode ser tarde demais para a maioria das pessoas. Ainda estamos aprendendo o potencial da tecnologia de IA generativa; isso inclui o potencial para o mal.
Só o tempo irá dizer
Neste momento, ainda estamos esperando os resultados do caso, então é difícil dizer o que vai acontecer. Teremos que esperar e ver como este caso se desenvolve para saber o futuro da tecnologia. Um caso como esse definitivamente poderia ter algumas ramificações importantes para a IA.