Um grupo de pesquisadores da Universidade de Illinois em Urbana-Champaign (UIUC) publicou um estudo que nos fala sobre o potencial do GPT-4 como ferramenta para cibercriminosos. E esse potencial é enorme.
Vulnerabilidades para mim. Os LLMs, apontam esses pesquisadores, tornaram-se cada vez mais poderosos para casos de uso benignos e maliciosos. Para demonstrar este último, eles coletaram 15 vulnerabilidades no primeiro dia, incluindo algumas classificadas como críticas. O GPT-4 foi capaz de explorar 87% dessas vulnerabilidades.
Não espere fazer isso com ChatGPT. O desempenho espetacular do GPT-4 foi comparado com o de versões anteriores, como o GPT-3.5, a versão usada, por exemplo, no ChatGPT, o chatbot gratuito da OpenAI. Este modelo, como outros modelos de código aberto, como Mistral-7B, Llama-2 Chat (70B), Mixtral-8X7B Instruct ou OpenHermes-2.5, não abordou uma única vulnerabilidade no conjunto de testes.
Claude 3 e Gêmeos, desconhecidos. O que não sabemos é se este “potencial para o mal” do GPT-4 também está presente em outros modelos recentes como Claude 3 ou Gemini 1.5 Pro, que não foram avaliados por não terem acesso a esses modelos. Eles esperam testá-los em algum momento, mas é provável que os avanços de ambos tenham feito com que eles também possam servir a esse tipo de propósito.
Chatbots para o mal. Este mesmo grupo de pesquisadores já mostrou no passado como os LLMs podem ser usados para automatizar ataques a sites, pelo menos em ambientes isolados. Daniel Kang, um dos membros da equipe, explicou no The Register como o GPT-4 pode “realizar etapas de forma autônoma para realizar certas explorações que os scanners de vulnerabilidade de código aberto não conseguem encontrar”.
Segurança pela escuridão. Sem fornecer detalhes adicionais sobre a vulnerabilidade, que é típica de Vulnerabilidades e Exposições Comuns (CVEs), o desempenho do GPT-4 caiu de 87% para 7%, levantando a questão se seria eficaz limitar os detalhes disponíveis nos CVEs e não torná-los públicos. Para Kang, isso não ajuda muito: “Pessoalmente, não acho que a segurança através da obscuridade seja sustentável, o que parece ser a filosofia predominante entre os pesquisadores de segurança”.
Custo mínimo. Os pesquisadores também queriam ver qual seria o custo computacional de usar um agente de IA com um modelo como o GPT-4 para criar uma exploração baseada em um CVE, e sua conclusão foi muito reveladora. O custo médio por exploração foi de US$ 8,80, quase três vezes menos do que teoricamente custaria contratar um desenvolvedor humano da área de pentesting para investigar esses CVEs e tentar desenvolver um CVE por 30 minutos.
Solicitações secretas (por enquanto). A OpenAI, desenvolvedora do GPT-4, pediu aos responsáveis pelo estudo que não revelassem os prompts usados para o experimento. O agente de código utilizado tinha 91 linhas de código e um prompt de 1.056 tokens. O pedido foi respeitado, mas os pesquisadores indicam no estudo que irão oferecê-lo a quem solicitar. O que não está claro é que eles continuam trabalhando: na OpenAI provavelmente usaram essa informação para aprimorar seu chatbot e evitar esse tipo de uso indevido.
Imagem | Ed Hardie
Em Xataka | O AI Pin alcançou seus primeiros usuários. E as suas conclusões não são nada esperançosas.