Cientistas descobrem método de jailbreak para contornar as regras de segurança do chatbot de IA

Chatbots de IA generativa, como ChatGPT e Google Bard, realmente abriram um mundo de novas possibilidades para os usuários encontrarem informações. No entanto, seu vasto conhecimento abrangendo vários domínios, incluindo aplicativos criminais, levantou preocupações entre os especialistas do setor. E embora tanto a OpenAI quanto o Google afirmem que têm as medidas necessárias em vigor, pesquisadores da Carnegie Mellon University identificaram uma nova fraqueza nesses sistemas de IA, permitindo que potenciais agentes mal-intencionados contornem as regras de segurança.

Apelidado de “jailbreaking”, esse método envolve adicionar caracteres ao final das consultas do usuário, permitindo que os chatbots de IA anulem os mecanismos de segurança e produzam conteúdo prejudicial. Por exemplo, adicionar uma string específica a uma pergunta sobre a criação de uma bomba levou a IA a fornecer uma resposta completa, superando suas limitações.

No entanto, o que piora ainda mais a situação é que o próprio chatbot gera esses hacks, possibilitando a criação de uma infinidade de padrões e complicando significativamente os esforços para controlar a disseminação de conteúdos nocivos. Além disso, o fato de que esta nova técnica parece funcionar em quase todos os chatbots AI, incluindo ChatGPT, Google Bard e Bing AI chatbot, levanta algumas preocupações sérias.

“Demonstramos que é, de fato, possível construir automaticamente ataques adversários contra [chatbots]… que fazem com que o sistema obedeça aos comandos do usuário mesmo que produza conteúdo nocivo”, diz a pesquisa.

Implicações potenciais

A pesquisa mais uma vez destaca as crescentes preocupações com a indústria de IA, que não conseguiu implementar as salvaguardas necessárias. Isso ocorre porque os agentes de ameaças podem explorar a técnica de jailbreak para espalhar informações incorretas e coagir chatbots de IA a criar malware.

Ao descobrir essas possíveis deficiências, os pesquisadores prontamente divulgaram suas descobertas às respectivas empresas e também emitiram uma declaração de ética para justificar a publicação de suas pesquisas.

“Embora isso seja um problema entre os LLMs, construímos proteções importantes no Bard – como as postuladas por esta pesquisa – que continuaremos a melhorar ao longo do tempo”, disse o Google em resposta à pesquisa.