Estratégia de ataque multiagente
Um redteamer de IA conhecido como “Pliny the Liberator” burlou as proteções do modelo Claude Fable 5, lançado pela Anthropic em 9 de junho de 2026, em menos de 48 horas. O jailbreak permitiu gerar guias de exploração de buffer overflow e vazou o prompt de sistema completo de 120 mil caracteres da IA.
A Anthropic lançou o Claude Fable 5 como o primeiro modelo disponível ao público da nova classe Mythos, projetado para tarefas avançadas de engenharia de software e análise. Como a própria Anthropic havia anunciado o Fable 5 com novas salvaguardas, a arquitetura de segurança do modelo inclui classificadores separados que detectam tentativas de uso indevido e, quando acionados, redirecionam a requisição para o modelo mais fraco Claude Opus 4.8, em vez de recusar diretamente.
Pliny denominou sua abordagem de “caça em pack” — uma estratégia multiagente coordenada que decompõe solicitações sensíveis em fragmentos benignos isolados, que são posteriormente remontados em conteúdo potencialmente perigoso. As capturas de tela compartilhadas pelo pesquisador mostram o Fable 5 gerando instruções detalhadas para explorar um buffer overflow em x86 Linux, incluindo a desativação de ASLR e a compilação de código C sem proteções.
Técnicas de evasão utilizadas
Pliny documentou múltiplas técnicas para contornar os classificadores de segurança do Fable 5, combinando diferentes vetores em um mesmo fluxo de ataque:
- Substituição Unicode e homoglifos: uso de caracteres cirílicos e símbolos visuais semelhantes a letras latinas para evitar filtros por palavras-chave
- Smuggling via contexto longo: dispersão de intenções prejudiciais ao longo de conversas extensas, dificultando a detecção pontual
- Enquadramento acadêmico: incorporação de solicitações sensíveis dentro de estruturas de documentos legítimos, como guias de estudo e referências de pesquisa
- Narrativa ficcional: disfarce de objetivos ofensivos como conteúdo criativo ou literário
- Decomposição e recomposição: extração de informações técnicas em fragmentos isolados e benignos, remontados depois em guias acionáveis
A decomposição revelou-se a técnica mais eficaz. Pliny observou que “obter informações úteis sobre o processo em si, como o método Birch reduction, é muito mais viável” do que solicitar diretamente um composto prejudicial nomeado. O uso de uma instância jailbroken do Opus para auxiliar no processo reduziu ainda mais a dificuldade.
Arquitetura de segurança falha
O episódio expõe limites fundamentais na abordagem de segurança da Anthropic. A empresa afirmou ter conduzido mais de 1.000 horas de testes externos via bug bounty sem descobrir um jailbreak universal. No entanto, a arquitetura de classificadores que roteia requisições sinalizadas para um modelo mais fraco, em vez de recusá-las, cria superfícies de ataque adicionais.
| Componente | Função declarada | Falha explorada |
|---|---|---|
| Classificadores de segurança | Detectar jailbreaks e bloquear conteúdo perigoso | Contornados por decomposição multiagente |
| Fallback para Opus 4.8 | Manter utilidade em requisições ambíguas | Instância jailbroken auxilia no bypass do Fable 5 |
| Prompt de sistema | Ditar comportamento e limites do modelo | Vazado completo (120K caracteres) no GitHub |
Pliny também publicou o prompt de sistema completo do Fable 5 no GitHub — aproximadamente 120 mil caracteres que definem as instruções internas e os limites de segurança do modelo. O vazamento oferece visibilidade sem precedentes sobre como a Anthropic estrutura a governança de seus modelos, informação que pode ser usada para refinar futuras tentativas de jailbreak.
Riscos para ecossistema de IA
O incidente levanta questões sobre a eficácia de avaliações de segurança em modelo único. Quando uma instância comprometida de um modelo pode auxiliar na quebra de outro, os testes isolados tornam-se insuficientes. O cenário é preocupante em pipelines de IA agentes, onde múltiplos modelos operam de forma coordenada.
Para equipes de segurança que trabalham com modelos de linguagem, as lições são claras: testes de jailbreak devem simular ataques multiagente, não apenas prompts isolados; a arquitetura de fallback pode introduzir vulnerabilidades adicionais; e a proteção do prompt de sistema deve ser tratada como prioridade, dado seu valor para adversários.
A Anthropic não havia se pronunciado publicamente sobre o jailbreak ou o vazamento do prompt até o momento desta reportagem.