A inteligência artificial transformou o pentest de atividade manual e lenta para algo que pode ser executado em minutos por agentes autônomos. Em menos de três anos — desde o lançamento do GPT-4 em abril de 2023 —, o ecossistema saltou de poucos experimentos acadêmicos para mais de 70 ferramentas open-source e bilhões em investimentos comerciais. Este artigo mapeia o estado atual das principais ferramentas de pentest assistidas por IA, de projetos open-source a plataformas empresariais.

Por que IA mudou o jogo do pentest

Antes de falar das ferramentas, é importante entender o que mudou. O padrão de uso real não é “gerar um zero-day do zero” — é iteração assistida. O operador identifica uma vulnerabilidade, fornece contexto (disassembly, constraints do ambiente) e o LLM ajuda a refinar o payload mais rápido do que trabalhando sozinho.

Segundo pesquisa do SANS Institute (2025), 67% dos operadores de red team já usam pelo menos uma ferramenta assistida por IA durante engajamentos ativos — um salto de 18% em relação a 2023. O mercado global de ferramentas de pentest passou de $2,24 bilhões em 2025 para uma projeção de $3,85 bilhões em 2034.

Do lado ofensivo autônomo, os resultados são impressionantes: a DARPA demonstrou que sistemas autônomos identificam 86% de vulnerabilidades sintéticas em software de infraestrutura crítica a um custo médio de ~$152 por tarefa. O framework ARTEMIS ficou em 2o lugar geral em pentest em rede universitária real (~8.000 hosts), superando 9 de 10 profissionais humanos.

Ferramentas open-source

PentAGI — o multi-agente autônomo

Desenvolvido pela VXControl, o PentAGI é provavelmente a ferramenta mais ambiciosa do ecossistema open-source. Com mais de 16.600 stars no GitHub, implementa uma arquitetura multi-agente hierárquica onde um agente orquestrador recebe um objetivo e coordena três agentes especializados:

  • Researcher — coleta informações e consulta fontes de vulnerabilidades
  • Developer — planeja estratégias de ataque
  • Executor — roda comandos em containers Docker isolados

Roda sobre uma imagem Kali Linux com mais de 20 ferramentas pré-instaladas (nmap, Metasploit, sqlmap, etc.), com terminal, browser e editor integrados. Licença MIT, com opção de API Cloud paga. Disponível em github.com/vxcontrol/pentagi.

BlacksmithAI — orquestração por fase

Lançado em março de 2026 por Yohannes Gebrekirstos, o BlacksmithAI segue uma abordagem diferente: cada agente corresponde a uma função real de um time de pentest — recon, exploit, pós-exploit e report. O orquestrador coordena a execução entre os agentes especializados, espelhando como equipes reais operam, integrado com ferramentas de segurança consolidadas em ambiente containerizado. Disponível em github.com/yohannesgk/blacksmith.

PentestGPT — o pioneiro acadêmico

Originalmente uma pesquisa acadêmica publicada no USENIX Security 2024, o PentestGPT funciona como um “copilot” interativo de pentest. Seus três módulos (reasoning, parsing e asking) abordam subtarefas individuais, mitigando o problema de perda de contexto que afeta prompts longos em LLMs. Demonstrou aumento de 228,6% em task-completion vs. GPT-3.5 sozinho. Com 54 releases e suporte a múltiplos LLMs, é um dos projetos mais maduros do ecossistema. Disponível em github.com/greydgl/pentestgpt.

HackBot — assistente desktop com GUI

O HackBot se destaca por oferecer uma GUI desktop nativa — algo raro no segmento. Com Agent Mode autônomo, suporte a 10 provedores de IA (incluindo modelos locais via Ollama) e 30+ integrações com ferramentas de segurança, planeja assessments, executa ferramentas reais, analisa outputs e gera relatórios. Tem marketplace de plugins comunitários e mapeamento automático nmap→CVE. Disponível em hackbot.co.in.

Outros projetos relevantes

  • ReconFTW — ferramenta de recon automatizado (subdomínios, fingerprinting, vuln scanning). Não é nativamente AI-powered, mas a comunidade criou o reconftw_ai que usa LLMs locais para classificar resultados e gerar relatórios a partir dos outputs.
  • HackingBuddyGPT — focado em pesquisa e benchmarks de segurança de sistemas.
  • AutoPentester — superou PentestGPT em 27 pontos percentuais em cobertura de vulnerabilidades.
  • RapidPen — promete IP-to-shell em 200-400 segundos por $0,30-$0,60 por execução.
  • CAI (Alias Robotics) — redução de custo de 156x vs. pentesters humanos ($109 vs. $17.218), 3.600x mais rápido.

Extensões para ferramentas consolidadas

BurpGPT — IA dentro do Burp Suite

A extensão BurpGPT integra LLMs diretamente ao Burp Suite Professional. Suporta Anthropic, Google Gemini, OpenAI, Ollama (local) e Hugging Face — com acesso a mais de 120.000 modelos PyTorch. Analisa tráfego em tempo real, gera relatórios de segurança automatizados e permite gerenciar prompts numa biblioteca compartilhável. Compatível apenas com a edição Professional do Burp. Disponível em burpgpt.app e GitHub.

NucleiCraft — templates YAML gerados por IA

O Nuclei (28.000+ stars, 12.000+ templates) já é indispensável para qualquer pentester. O NucleiCraft leva isso adiante: gera templates YAML automaticamente a partir de descrição em linguagem natural, com 92% de detection accuracy. Plano gratuito com 5 templates; versão Pro com geração ilimitada. Disponível em nucleicraft.com.

Ferramentas comerciais

Armadin — o agentic swarm

Fundada por Kevin Mandia (ex-CEO da FireEye/Mandiant), a Armadin levantou $189,9 milhões — o maior seed+Series A combinado da história da cibersegurança, com backing de Accel, Google Ventures, Kleiner Perkins e In-Q-Tel (VC da CIA). Oferece agentic attacker swarm com clientes Fortune 100.

Horizon3.ai — NodeZero

A Horizon3.ai realizou mais de 150.000 pentests autônomos em 3.000+ organizações, incluindo o programa CAPT da NSA. Valuation de ~$750 milhões com $186 milhões em funding total. A plataforma NodeZero executa testes de intrusão contínuos sem requisitos de pré-instalação.

Hadrian Nova

A Hadrian offers agentic pentest on-demand. A empresa também publicou um catálogo de 70 ferramentas open-source de AI pentest existentes até março de 2026 — menos de 5 existiam antes do lançamento do GPT-4.

Resultados concretos: o que a IA já encontrou

Data Ferramenta/IA Achado
Jan/2026 Claude Mythos 12 zero-days no OpenSSL em um único release
Abr/2026 Claude Mythos Preview Milhares de zero-days em principais OS e browsers
Abr/2026 RAPTOR + Claude Opus 4 zero-days novos no OpenNDS
2025 XBOW 1.000+ vulnerabilidades — #1 hacker nos EUA no HackerOne
2025 ARTEMIS 9 vulnerabilidades válidas em rede universitária real de 8.000 hosts
2025 Unit 42 Kill-chain completo de ransomware simulado em 25 minutos

O lado negro: IA facilitando ataques

A mesma tecnologia que acelera defesa também acelera o ataque. O Google GTIG identificou o primeiro zero-day exploit desenvolvido por IA em maio de 2025 — projetado para bypass de 2FA por grupo de cybercrime, interceptado antes da implantação. O Zero Day Initiative registrou aumento de 490% em submissões de bugs em abril de 2026 vs. abril de 2025, largamente impulsionado por IA.

A Forescout demonstrou que modelos como Claude Opus 4.6 e Kimi K2.5 conseguem encontrar e explorar vulnerabilidades sem prompts complexos — acessível a atacantes inexperientes. Custos totais de teste com modelos open-source: menos de $0,70.

Open source vs. comercial: como escolher

O ecossistema open-source (39+ agentes catalogados em 2026) oferece flexibilidade e custo zero, mas exige expertise para configurar e manter. Projetos como PentAGI e PentestGPT são ideais para pesquisadores e times com capacidade técnica interna.

As plataformas comerciais (Armadin, Horizon3.ai, Hadrian) oferecem integração corporativa, suporte, compliance e resultados mensuráveis — essenciais para organizações que precisam justificar gastos com auditoria. A lacuna entre lab e real é enorme: GPT-4 explora 87% de CVEs one-day com descrição, mas agentes resolvem apenas 13% de CVEs reais no CVE-Bench.

O futuro do pentest com IA

A taxonomia de Vilches (junho 2025) classifica a autonomia de agentes de segurança em 6 níveis. As ferramentas atuais operam entre Nível 3 e 4 — planejamento e sequenciamento de técnicas conhecidas, adaptação dentro de escopo definido. A operação totalmente não-supervisionada (Nível 5-6) ainda é horizon.

O que é certo: a IA no pentest deixou de ser curiosidade acadêmica. Com bilhões em investimentos, bugs reais sendo encontrados autonomamente e agentes superando profissionais humanos em benchmarks, a pergunta não é mais se IA vai dominar o pentest — é quando a regulação e a ética vão acompanhar.

Links úteis: