Estratégia de ataque multiagente

Um redteamer de IA conhecido como “Pliny the Liberator” burlou as proteções do modelo Claude Fable 5, lançado pela Anthropic em 9 de junho de 2026, em menos de 48 horas. O jailbreak permitiu gerar guias de exploração de buffer overflow e vazou o prompt de sistema completo de 120 mil caracteres da IA.

A Anthropic lançou o Claude Fable 5 como o primeiro modelo disponível ao público da nova classe Mythos, projetado para tarefas avançadas de engenharia de software e análise. Como a própria Anthropic havia anunciado o Fable 5 com novas salvaguardas, a arquitetura de segurança do modelo inclui classificadores separados que detectam tentativas de uso indevido e, quando acionados, redirecionam a requisição para o modelo mais fraco Claude Opus 4.8, em vez de recusar diretamente.

Pliny denominou sua abordagem de “caça em pack” — uma estratégia multiagente coordenada que decompõe solicitações sensíveis em fragmentos benignos isolados, que são posteriormente remontados em conteúdo potencialmente perigoso. As capturas de tela compartilhadas pelo pesquisador mostram o Fable 5 gerando instruções detalhadas para explorar um buffer overflow em x86 Linux, incluindo a desativação de ASLR e a compilação de código C sem proteções.

Técnicas de evasão utilizadas

Pliny documentou múltiplas técnicas para contornar os classificadores de segurança do Fable 5, combinando diferentes vetores em um mesmo fluxo de ataque:

  • Substituição Unicode e homoglifos: uso de caracteres cirílicos e símbolos visuais semelhantes a letras latinas para evitar filtros por palavras-chave
  • Smuggling via contexto longo: dispersão de intenções prejudiciais ao longo de conversas extensas, dificultando a detecção pontual
  • Enquadramento acadêmico: incorporação de solicitações sensíveis dentro de estruturas de documentos legítimos, como guias de estudo e referências de pesquisa
  • Narrativa ficcional: disfarce de objetivos ofensivos como conteúdo criativo ou literário
  • Decomposição e recomposição: extração de informações técnicas em fragmentos isolados e benignos, remontados depois em guias acionáveis

A decomposição revelou-se a técnica mais eficaz. Pliny observou que “obter informações úteis sobre o processo em si, como o método Birch reduction, é muito mais viável” do que solicitar diretamente um composto prejudicial nomeado. O uso de uma instância jailbroken do Opus para auxiliar no processo reduziu ainda mais a dificuldade.

Arquitetura de segurança falha

O episódio expõe limites fundamentais na abordagem de segurança da Anthropic. A empresa afirmou ter conduzido mais de 1.000 horas de testes externos via bug bounty sem descobrir um jailbreak universal. No entanto, a arquitetura de classificadores que roteia requisições sinalizadas para um modelo mais fraco, em vez de recusá-las, cria superfícies de ataque adicionais.

Componente Função declarada Falha explorada
Classificadores de segurança Detectar jailbreaks e bloquear conteúdo perigoso Contornados por decomposição multiagente
Fallback para Opus 4.8 Manter utilidade em requisições ambíguas Instância jailbroken auxilia no bypass do Fable 5
Prompt de sistema Ditar comportamento e limites do modelo Vazado completo (120K caracteres) no GitHub

Pliny também publicou o prompt de sistema completo do Fable 5 no GitHub — aproximadamente 120 mil caracteres que definem as instruções internas e os limites de segurança do modelo. O vazamento oferece visibilidade sem precedentes sobre como a Anthropic estrutura a governança de seus modelos, informação que pode ser usada para refinar futuras tentativas de jailbreak.

Riscos para ecossistema de IA

O incidente levanta questões sobre a eficácia de avaliações de segurança em modelo único. Quando uma instância comprometida de um modelo pode auxiliar na quebra de outro, os testes isolados tornam-se insuficientes. O cenário é preocupante em pipelines de IA agentes, onde múltiplos modelos operam de forma coordenada.

Para equipes de segurança que trabalham com modelos de linguagem, as lições são claras: testes de jailbreak devem simular ataques multiagente, não apenas prompts isolados; a arquitetura de fallback pode introduzir vulnerabilidades adicionais; e a proteção do prompt de sistema deve ser tratada como prioridade, dado seu valor para adversários.

A Anthropic não havia se pronunciado publicamente sobre o jailbreak ou o vazamento do prompt até o momento desta reportagem.

Fontes e referências