O GPT-4 está ficando mais burro? Podemos finalmente ter alguma prova

Por mais impressionante que o GPT-4 tenha sido no lançamento, alguns observadores observaram que ele perdeu um pouco de sua precisão e poder. Essas observações foram postadas online há meses, inclusive nos fóruns da OpenAI.

Esses sentimentos já existem há algum tempo, mas agora podemos finalmente ter uma prova. Um estudo realizado em colaboração com a Universidade de Stanford e a UC Berkeley sugere que o GPT-4 não melhorou sua proficiência de resposta, mas na verdade piorou com atualizações adicionais no modelo de linguagem.

O GPT-4 está piorando com o tempo, não melhorando.
Muitas pessoas relataram ter notado uma degradação significativa na qualidade das respostas do modelo, mas, até agora, tudo não passou de uma anedota.
Mas agora sabemos.
Pelo menos um estudo mostra como a versão de junho do GPT-4 é objetivamente pior do que… pic.twitter.com/whhELYY6M4
— Santiago (@svpino) 19 de julho de 2023

O estudo, chamado Como o comportamento do ChatGPT está mudando com o tempo?, testou a capacidade entre o GPT-4 e a versão de idioma anterior GPT-3.5 entre março e junho. Testando as duas versões do modelo com um conjunto de dados de 500 problemas, os pesquisadores observaram que o GPT-4 teve uma taxa de precisão de 97,6% em março com 488 respostas corretas e uma taxa de precisão de 2,4% em junho, depois que o GPT-4 passou por algumas atualizações. O modelo produziu apenas 12 respostas corretas meses depois.

Outro teste usado pelos pesquisadores foi uma técnica de cadeia de pensamento, na qual eles perguntaram ao GPT-4 17.077 é um número primo? Uma questão de raciocínio. O GPT-4 não apenas respondeu incorretamente não, como também não deu nenhuma explicação sobre como chegou a essa conclusão, de acordo com os pesquisadores.

Notavelmente, o GPT-4 está atualmente disponível para desenvolvedores ou membros pagos por meio do ChatGPT Plus. Fazer a mesma pergunta ao GPT-3.5 por meio da prévia de pesquisa gratuita do ChatGPT como eu fiz, fornece não apenas a resposta correta, mas também uma explicação detalhada do processo matemático.

Além disso, a geração de código sofreu com os desenvolvedores da LeetCode, tendo visto o desempenho do GPT-4 em seu conjunto de dados de 50 problemas fáceis cair de 52% de precisão para 10% de precisão entre março e junho.

Quando o GPT-4 foi anunciado pela primeira vez, a OpenAI detalhou seu uso de supercomputadores Microsoft Azure AI para treinar o modelo de linguagem por seis meses, alegando que o resultado era uma probabilidade 40% maior de gerar as “informações desejadas dos prompts do usuário”.

No entanto, Comentador do Twitter, @svpino observou que há rumores de que a OpenAI pode estar usando “modelos GPT-4 menores e especializados que agem de maneira semelhante a um modelo grande, mas são mais baratos de executar”.

Essa opção mais barata e rápida pode estar levando a uma queda na qualidade das respostas GPT-4 em um momento crucial em que a empresa-mãe tem muitas outras grandes organizações dependendo de sua tecnologia para colaboração.

O ChatGPT, baseado no GPT-3.5 LLM, já era conhecido por ter seus desafios de informação, como ter um conhecimento limitado dos eventos mundiais após 2021, o que poderia levá-lo a preencher lacunas com dados incorretos. No entanto, a regressão de informações parece ser um problema completamente novo, nunca visto antes com o serviço. Os usuários estavam ansiosos por atualizações para resolver os problemas aceitos.

CEO da OpenAI, Sam Altman expresso recentemente sua decepção com um tweet após a Comissão Federal de Comércio iniciar uma investigação sobre se o ChatGPT violou as leis de proteção ao consumidor.

“Somos transparentes sobre as limitações de nossa tecnologia, especialmente quando falhamos. E nossa estrutura de lucros limitados significa que não somos incentivados a obter retornos ilimitados”, tuitou ele.

Recomendações dos editores