MiniGPT-4: uma ferramenta gratuita de IA de imagem para texto que você pode experimentar hoje

O ChatGPT é ótimo, mas no momento está limitado a apenas texto – entrada de texto, saída de texto. O GPT-4 deveria expandir isso adicionando processamento de imagem para permitir a geração de texto com base em imagens.

MiniGPT-4: Aprimorando a Compreensão da Visão e da Linguagem com Modelos Avançados de Linguagem Grande

A OpenAI ainda não lançou esse recurso, no entanto, é aí que entra o MiniGPT-4. Esse projeto de código aberto nos dá uma prévia de como pode ser o processamento de imagem no GPT-4 – e é bem legal.

O que é MiniGPT-4?

O MiniGPT-4 é um projeto de código aberto publicado no GitHub para demonstrar os recursos de linguagem de visão em um sistema de IA. Alguns exemplos do que ele pode fazer incluem gerar descrições de imagens, escrever histórias baseadas em imagens ou até mesmo criar sites apenas a partir de desenhos.

Apesar do que o nome indica, o MiniGPT-4 não está oficialmente conectado ao OpenAI ou GPT-4. Foi criado por um grupo de Ph.D. estudantes baseados na Arábia Saudita na King Abdullah University of Science and Technology. Também é baseado em um modelo de linguagem grande diferente (LLM) chamado Vicuna, que foi construído no modelo de linguagem grande Meta AI (LLaMA) de código aberto. Não é tão poderoso quanto o ChatGPT, mas conforme classificado pelo próprio GPT-4, o Vicuna chega a 90%.

Como usar o MiniGPT-4

O MiniGPT-4 é apenas uma demonstração e ainda está em sua primeira versão. Por enquanto, ele pode ser acessado gratuitamente no site oficial do grupo. Para usá-lo, basta arrastar uma imagem ou clicar em “Solte a imagem aqui”. Depois de carregado, digite seu prompt na caixa de pesquisa.

Que tipos de coisas você deve experimentar? Bem, pedir ao MiniGPT-4 para descrever uma imagem é bastante simples. Mas talvez você precise de uma cópia para uma postagem no Instagram da sua empresa. Ou talvez você queira saber os ingredientes necessários para um prato interessante e até mesmo uma receita de como cozinhá-lo. O MiniGPT-4 pode lidar com essas tarefas surpreendentemente bem.

Os aspectos de codificação são um pouco mais ásperos nas bordas. Transformar um simples desenho de guardanapo em um site funcional foi um truque mostrado pela OpenAI quando o GPT-4 foi anunciado pela primeira vez. Mas o MiniGPT-4 não parece ser capaz de lidar com isso tão bem ainda. O ChatGPT fornecerá um código mais preciso – na verdade, executar qualquer que seja o código MiniGPT-4 por meio do ChatGPT ou GPT-4 gerará melhores resultados.

Uma coisa a observar é que o MiniGPT-4 usa a GPU do seu sistema local. Portanto, a menos que você tenha uma GPU discreta bastante poderosa, você pode achar a experiência bastante lenta. Para contextualizar, experimentei em um M2 Max MacBook Pro e demorou cerca de 30 segundos para gerar o texto com base em uma imagem que carreguei.

Limitações do MiniGPT-4

A velocidade do MiniGPT-4 é certamente uma limitação. Se você está tentando acessá-lo sem alguns gráficos decentes, é muito lento para responder. Se você está acostumado com a velocidade do ChatGPT baseado em nuvem ou mesmo do Bing Image Creator, o MiniGPT-4 parecerá dolorosamente lento.

Além disso, o MiniGPT-4 tem as mesmas limitações que o ChatGPT, o Google Bard ou qualquer outro chatbot de IA, pois pode “alucinar” ou inventar informações.

Recomendações dos editores