Skill falsa de IA hackeia 26 mil agentes corporativos

Q: Como a skill falsa enganou todos?

A AIR Security construiu uma habilidade chamada brand-landingpage , que prometia criar páginas de apresentação usando o Stitch, ferramenta de design recém-lançada pelo Google. O alvo não eram programadores — eram profissionais de marketing, vendas e design, pessoas sem conhecimento técnico profundo, exatamente o público que adota agentes de IA sem questionar o que instala. Para parecer legítima, a habilidade falsa usou dois sinais de confiança que o ecossistema inteiro trata como prova de segurança. Primeiro, foi aceita num repositório do GitHub com cerca de 36 mil estrelas e 156 habilidades, herdando automaticamente a credibilidade do projeto. Segundo, passou por todos os scanners de segurança testados: os da Cisco, da NVIDIA e os três integrados no skills.sh — todos classificaram a habilidade como segura. Depois de promover a skill num anúncio do Instagram direcionado a profissionais não técnicos, a AIR observou a instalação em milhares de agentes.

Uma única skill (habilidade) falsa de inteligência artificial, disfarçada de ferramenta de criação de páginas, contornou todos os scanners de segurança do mercado, atingiu cerca de 26 mil agentes de IA — incluindo contas corporativas — e provou que o ecossistema de extensões para IA tem uma falha estrutural gravíssima. A firma de segurança AIR Security demonstrou o ataque em junho de 2026, e pesquisadores independentes do Trail of Bits confirmaram três semanas antes que nenhum scanner disponível consegue barrar habilidades maliciosas de forma confiável.

Como a skill falsa enganou todos

A AIR Security construiu uma habilidade chamada brand-landingpage, que prometia criar páginas de apresentação usando o Stitch, ferramenta de design recém-lançada pelo Google. O alvo não eram programadores — eram profissionais de marketing, vendas e design, pessoas sem conhecimento técnico profundo, exatamente o público que adota agentes de IA sem questionar o que instala.

Para parecer legítima, a habilidade falsa usou dois sinais de confiança que o ecossistema inteiro trata como prova de segurança. Primeiro, foi aceita num repositório do GitHub com cerca de 36 mil estrelas e 156 habilidades, herdando automaticamente a credibilidade do projeto. Segundo, passou por todos os scanners de segurança testados: os da Cisco, da NVIDIA e os três integrados no skills.sh — todos classificaram a habilidade como segura. Depois de promover a skill num anúncio do Instagram direcionado a profissionais não técnicos, a AIR observou a instalação em milhares de agentes.

A brecha que nenhum scanner vê

O truque funciona porque todos os scanners atuais analisam apenas o pacote enviado: o arquivo SKILL.md e os arquivos que vêm junto. Mas uma habilidade de IA pode instruir o agente a buscar instruções adicionais num link externo — uma página de documentação, um guia de instalação, uma referência de API. O agente trata esse conteúdo externo com a mesma autoridade que dá à própria habilidade, executando tudo o que ele disser.

A AIR registrou o domínio stitch-design.ai, parecido com o domínio oficial stitch.withgoogle.com. No começo, o link apontava para a documentação verdadeira do Stitch, então os scanners não viram nada de errado. Mas o conteúdo de um site externo pode ser trocado a qualquer momento, depois da verificação. Quando a habilidade já estava instalada em 26 mil agentes, a AIR substituiu a página. A nova versão instruía cada agente a baixar e executar um script. No teste, o script só coletou o endereço de e-mail do usuário — mas poderia ter lido arquivos, exfiltrado dados sensíveis ou atacado sistemas internos, limitado apenas pelo que o agente conseguisse acessar.

Sinal de confiança	Como foi burlado	Por que falhou
Estrelas no GitHub	Habilidade aceita num repositório alheio com 36 mil estrelas	O número de estrelas pertence ao repositório, não à contribuição individual
Scanner de segurança	Análise limpa na Cisco, NVIDIA e skills.sh	Scanner lê apenas o pacote enviado, ignora links externos
Reputação do domínio	Domínio stitch-design.ai redirecionava para o site real	Som e aparência plausíveis; ninguém conferiu a URL oficial
Conteúdo da página externa	Página trocada após a verificação inicial	Scan é um instantâneo; o alvo se move depois da checagem

Trail of Bits já provou isso

Três semanas antes do experimento da AIR, pesquisadores do Trail of Bits publicaram um estudo com conclusão idêntica. Eles burlaram o detector de habilidades maliciosas do ClawHub, o scanner da Cisco e todos os três scanners integrados ao skills.sh. Não foi preciso nenhum ataque sofisticado — três das quatro habilidades maliciosas que criaram foram concebidas e implementadas em menos de uma hora.

O método mais simples foi brutal na sua simplicidade: prependendo 100 mil linhas em branco a uma habilidade maliciosa, o scanner do ClawHub truncou o arquivo antes de chegar ao trecho perigoso e marcou tudo como seguro. Outro bypass usou injeção de prompt para convencer o modelo que faz a análise de que o código era inofensivo. A conclusão do Trail of Bits é direta: um scanner verifica um pacote fixo, mas um atacante pode ajustar o payload quantas vezes quiser até passar. É o mesmo princípio dos ataques a pacotes npm que roubam chaves de acesso: a cadeia de suprimentos de software continua sendo o calcanhar de Aquiles da segurança.

O risco real para empresas brasileiras

O Brasil é um dos mercados que mais adota ferramentas de IA generativa no mundo. Equipes de marketing, vendas, atendimento e recursos humanos instalam agentes de IA e suas habilidades diariamente, muitas vezes sem qualquer supervisão do time de TI. A pesquisa da Cloud Security Alliance, publicada em 10 de junho de 2026, reforça que o problema não é teórico: os scanners divergem entre si porque cada um julga a habilidade isoladamente, cego para os links externos e para o que muda depois da revisão. O risco se soma a outras exposições recentes, como a falha CVSS 10 no LiteLLM que roubava chaves de IA de quem deixava o serviço exposto.

Para uma empresa brasileira, o cenário é o seguinte: um funcionário de marketing vê um anúncio no Instagram, instala uma habilidade de IA que promete criar campanhas, e o agente — que tem acesso ao e-mail corporativo, aos arquivos do Google Drive e talvez ao CRM — passa a seguir instruções de um site controlado por criminosos. Não há exploração de vulnerabilidade técnica, não há malware tradicional. O agente executa voluntariamente, porque foi instruído a confiar na habilidade.

Como se proteger de skills falsas

A defesa começa por mudar a mentalidade: habilidades de IA são software, não texto. Cada uma deve passar pelo mesmo rigor de revisão que um pacote de código qualquer. As recomendações concretas, baseadas nos relatórios da AIR e do Trail of Bits, são:

Inventariar o que já está rodando. A maioria das habilidades foi instalada por funcionários sem revisão. O primeiro passo é descobrir quais existem no ambiente e quem as colocou lá.
Centralizar a origem. Toda habilidade nova deve vir de uma fonte única e controlada pela equipe de segurança, onde cada uma é analisada e aprovada antes de qualquer instalação.
Verificar links externos, não só o pacote. Um scanner que ignora para onde a habilidade aponta não serve. O conteúdo de qualquer URL referenciada precisa ser checado continuamente, porque pode mudar após a instalação.
Fixar versões e aplicar menor privilégio. Bloqueie atualizações automáticas de habilidades. Limite o acesso de cada agente ao mínimo necessário — um agente que só precisa escrever e-mails não deve ter acesso ao sistema de arquivos.
Tratar instruções externas como código executável. Qualquer conteúdo que um agente busca na web e segue tem o mesmo peso de um comando do usuário. Assuma que isso roda com todo o acesso do agente.

Um problema estrutural sem solução fácil

A questão central não é um bug específico que um patch vai resolver. É uma falha de desenho: o modelo de confiança das habilidades de IA assume que o conteúdo submetido é estático, mas na prática ele é dinâmico e aponta para recursos que mudam. Enquanto os scanners olharem apenas para o pacote e ignorarem o ecossistema de links ao redor, o bypass continuará trivial — o mesmo tipo de problema que levou o GitHub a desativar scripts npm para conter ataques de supply chain.

A AIR e o Trail of Bits mostraram duas coisas ao mesmo tempo: a escala do problema (26 mil agentes comprometidos com um anúncio de Instagram) e a trivialidade do ataque (menos de uma hora para burlar todos os scanners). Para quem defende redes corporativas no Brasil, a mensagem é clara: assumir que um selo de “verificado como seguro” numa habilidade de IA significa alguma coisa é, neste momento, um erro caro. A verificação tem que ser contínua, o acesso tem que ser mínimo e a origem tem que ser controlada. O resto é ilusão.