SynthID: 100 bilhões de arquivos de IA marcados em silêncio

Uma tecnologia de marcação digital invisível já identificou mais de 100 bilhões de imagens e vídeos gerados por IA em todo o mundo. O SynthID, desenvolvido pelo Google DeepMind, recebeu uma expansão significativa no Google I/O 2026 e agora conta com a adesão de OpenAI, NVIDIA, Kakao e ElevenLabs — consolidando-se como o padrão de fato para rastreamento de conteúdo sintético. Pesquisadores da ETH Zürich, no entanto, demonstraram que a marca pode ser detectada e removida por adversários determinados, reacendendo o debate sobre privacidade e vigilância algorítmica.

Como o SynthID funciona

O SynthID incorpora marcas d’água digitais diretamente nos pixels de imagens, nos quadros de vídeos e nas formas de onda de áudio gerado por IA. Diferente de metadados — que podem ser removidos com um simples “salvar como” — a marca é parte integrante do arquivo. Segundo Pushmeet Kohli, cientista do Google DeepMind, a equipe investiu meses de pesquisa para garantir resistência a compressão com perda, recorte, rotação e ajustes de contraste.

O sistema opera em duas etapas. Primeiro, um modelo de aprendizado profundo incorpora um padrão estatístico no conteúdo no momento da geração. Depois, um segundo modelo treinado para identificar esse padrão verifica se o arquivo foi produzido por IA. O Google afirma que a taxa de falsos positivos é inferior a 1% e que a marca sobrevive a transformações que degradariam qualquer metadado convencional.

No I/O 2026, o CEO Sundar Pichai anunciou que a tecnologia se expande para vídeos gravados nos smartphones Pixel 8, 9 e 10, e que a detecção via SynthID chegará ao navegador Chrome e à busca Google nos próximos meses. A OpenAI confirmou adoção do padrão no ChatGPT e no DALL-E, juntando-se à NVIDIA, à sul-coreana Kakao e à startup de áudio ElevenLabs.

Marca em texto gera debate

A versão para texto, chamada SynthID-Text, opera de forma fundamentalmente diferente da marcação de imagens. Em vez de alterar caracteres ou inserir metadados, o algoritmo manipula a seleção pseudoaleatória do próximo token durante a geração — introduzindo um viés estatístico imperceptível ao leitor humano, mas matematicamente detectável.

O mecanismo utiliza uma função pseudoaleatória (PRF) combinada com tournament sampling, uma técnica que generaliza o aumento de probabilidade de tokens específicos para diferentes níveis de viés de logitos. A pesquisa foi publicada na revista Nature e o código foi disponibilizado como open-source no GitHub.

Estudos conduzidos pelo SRI Lab da ETH Zürich, publicados em dezembro de 2024, mostraram resultados mistos. A presença da marca pode ser detectada com consultas de caixa-preta — sem acesso ao modelo — usando um método chamado Red-Green test. Os pesquisadores Nikola Jovanović, Thibaud Gloaguen e Martin Vechev também constataram que o SynthID-Text é mais resistente a falsificação (spoofing) do que outros esquemas de ponta, mas é mais fácil de remover (scrubbing) por adversários mesmo sem conhecimento especializado.

Impacto da adoção em massa

Com a adesão de quatro das maiores empresas de IA do mundo, o SynthID deve marcar bilhões de novos conteúdos por mês. O Google afirmou que a tecnologia já processou 60 mil anos de áudio e 100 bilhões de imagens e vídeos desde o lançamento. O volume deve aumentar exponencialmente com a integração ao ChatGPT, que possui mais de 400 milhões de usuários semanais.

O Google lançou o SynthID Detector, um portal público que permite verificar se uma imagem contém a marca digital, e anunciou uma Content Detection API no Google Cloud para integração por desenvolvedores terceiros. A detecção também será incorporada ao Gemini, permitindo que o chatbot explique a proveniência de arquivos com base na marcação.

A tecnologia se soma ao padrão C2PA (Coalition for Content Provenance and Authenticity), que registra a cadeia de custódia de arquivos em metadados assinados criptograficamente. A combinação de ambos oferece duas camadas complementares: metadados para rastreabilidade, e marca digital para detecção mesmo após manipulação intensiva do arquivo.

Riscos de privacidade levantados

A expansão do SynthID reacendeu preocupações em comunidades de segurança e privacidade digital. A marca é invisível, permanente e rastreável pelo Google — sem que o usuário final saiba que está presente no conteúdo que consome ou compartilha. Especialistas apontam que a mesma infraestrutura usada para identificar conteúdo de IA pode, em teoria, ser adaptada para rastrear a origem de qualquer conteúdo digital, inclusive de autores humanos.

A participação da Kakao, conglomerado sul-coreano com histórico de controvérsias envolvendo dados de usuários e vigilância de funcionários, intensificou as críticas. A empresa é parceira oficial na implementação do SynthID para o mercado asiático. Ativistas de privacidade argumentam que não existem legislações específicas que limitem o uso da tecnologia para fins além da identificação de IA, criando um vácuo regulatório explorável.

Discussões em fóruns de tecnologia apontam que a marcação de texto é particularmente preocupante: como o SynthID-Text altera a distribuição estatística dos tokens, a tecnologia cria, na prática, um identificador único embutido em cada texto gerado — um rastro digital passivo que pode vincular conteúdo ao usuário que o produziu.

O que fazer agora

Usuários que produzem conteúdo com ferramentas de IA devem estar cientes de que o output pode conter marcas d’água invisíveis. Para verificar se um arquivo contém SynthID, o portal SynthID Detector está disponível no site do Google DeepMind. Desenvolvedores podem integrar a detecção automatizada via Content Detection API no Google Cloud. Empresas que utilizam IA generativa de forma profissional devem avaliar políticas de transparência sobre marcação de conteúdo sintético antes de publicar materiais em seus canais.

Fontes:

Ars Technica — SynthID adotado por OpenAI e NVIDIA (Ryan Whitwam, 19 Mai 2026)
Google Blog — Identifying AI-generated media
ETH Zürich SRI Lab — Probing SynthID-Text (Jovanović, Gloaguen, Vechev — Dez 2024)
InfoQ — Google expands SynthID, previews API
Google DeepMind — SynthID