GitHub

Dados sintéticos viraram a resposta padrão para dois problemas reais: privacidade e falta de dados. A promessa é tentadora, treine sem expor ninguém, teste sem copiar produção, gere quanta massa quiser. Como toda promessa boa demais, a parte interessante está no que o fornecedor não coloca no slide.

Dado sintético não é dado real com privacidade embutida. É uma imitação estatística, e imitação tem limite. Quem trata o sintético como substituto perfeito do real troca um risco visível (vazar dado de pessoa) por um risco invisível (decidir com base em um mundo que não existe). O segundo é pior justamente porque não aparece até tarde.

O risco de aprender o mundo errado

Um modelo aprende o mundo que você mostra a ele. Se o mundo é sintético, ele aprende a versão sintética, com todos os atalhos e simplificações que o gerador embutiu. O problema é que esses atalhos não vêm etiquetados.

Quando o dado sintético captura bem a estrutura do real, ótimo. Quando captura mal, o modelo fica confiante sobre padrões que só existem na simulação. Ele acerta no laboratório e erra no mundo, e a diferença entre os dois ambientes é exatamente a parte que o gerador não soube reproduzir.

O caso clássico é o evento raro. Fraude, falha crítica, doença incomum, o que importa muitas vezes é a exceção, não a média. Geradores são bons em reproduzir o comportamento típico e ruins em reproduzir a cauda. Você gera um milhão de transações sintéticas e, sem querer, ensina o modelo que fraude quase não acontece do jeito que ela realmente acontece.

Viés não some na cópia, ele se multiplica

Existe uma fantasia confortável de que gerar dado sintético "limpa" o dado. Não limpa. O gerador aprende com o dado real, e tudo que estava torto no real tende a aparecer no sintético, às vezes amplificado.

Se a base original sub-representa um grupo, o dado sintético vai sub-representar também, com a agravante de parecer neutro. O viés ganha uma camada de tinta nova: agora ele está num dataset "artificial", o que dá uma falsa sensação de imparcialidade. A injustiça continua, só ficou mais difícil de apontar com o dedo.

Para quem trabalha com decisão que afeta pessoas, crédito, triagem, priorização de atendimento público, isso é grave. A conformidade com a LGPD cuida de não expor o indivíduo, mas não garante que o modelo treinado em cima seja justo. São dois problemas diferentes, e resolver o primeiro não resolve o segundo.

A reidentificação que o sintético deveria evitar

O argumento de privacidade do dado sintético é forte: como não há pessoa real ali, não há quem reidentificar. Na teoria. Na prática, depende de como o dado foi gerado.

Um gerador que decora demais o conjunto original pode reproduzir trechos reais quase intactos, especialmente os casos extremos e únicos, justamente os mais fáceis de reidentificar. O registro do paciente com a combinação rara de condições pode reaparecer no sintético quase igual. Você achou que tinha anonimizado e, sem perceber, copiou o que mais precisava esconder.

Isso significa que dado sintético não é privado por definição. Ele é privado quando foi gerado com cuidado e medido com critério. Sem essa medição, "é sintético, então é seguro" é fé, não garantia. E fé não passa por auditoria.

Model collapse: quando a IA se alimenta do próprio reflexo

Há um risco mais novo e mais silencioso quando dado sintético vira a principal fonte de treino: o modelo passa a aprender de saídas de modelos, não do mundo. A cada geração, a diversidade encolhe um pouco, as bordas se perdem, a média domina.

É como tirar fotocópia de fotocópia. A primeira está ótima. Na vigésima, o texto ainda é legível, mas o tom já se foi. Sistemas que se realimentam de dado sintético sem injeção suficiente de realidade tendem a empobrecer com o tempo, ficando cada vez mais parecidos consigo mesmos e cada vez menos parecidos com o que deveriam modelar.

O antídoto não é abandonar o sintético, é manter o real no circuito. Dado sintético funciona melhor como complemento e amplificação, não como dieta exclusiva. Quem corta o vínculo com o mundo real perde, devagar, a capacidade de representá-lo.

Onde o sintético rende, e onde não

Vale ser específico, porque o sintético não é bom nem ruim no abstrato, é adequado ou não para cada uso. Ele rende muito em testes e QA: gerar massa realista para encher um ambiente de homologação, exercitar fluxos, achar bug, sem arrastar dado de produção. Aqui o risco é baixo, porque o objetivo é exercitar o sistema, não tomar decisão sobre pessoas.

Ele rende em desenvolvimento e demonstração, onde você precisa de algo plausível e não pode usar o real. Rende em aumentar dados quando faltam exemplos de uma situação específica e você sabe bem como ela se comporta.

Onde ele cobra caro é na decisão de alto risco treinada quase só no sintético, e na validação final. Modelo que vai a produção decidindo sobre gente precisa, em algum ponto, encarar dado real. O sintético acelera o caminho até lá, não substitui a chegada. Pular a validação no real para economizar tempo é trocar custo de hoje por incidente de amanhã.

A pergunta que separa uso maduro de ilusão

A decisão não é "usar ou não usar dado sintético", é "para quê, com qual gerador e validado contra o quê". Quem responde essas três perguntas usa a ferramenta bem. Quem pula direto para "é sintético, então pode" está terceirizando julgamento para um slide de marketing.

Dado sintético é uma ferramenta poderosa de privacidade, velocidade e escala. Como toda ferramenta poderosa, ele falha de formas convincentes: o erro vem com cara de dado, com volume, com aparência de rigor. Por isso o limite mais importante não é técnico, é de postura: tratar o sintético com a mesma desconfiança saudável que você daria a qualquer fonte que afirma representar a realidade sem ser a realidade.

No fim, o sintético não elimina a necessidade de entender seus dados. Ele a aumenta. Só sabe gerar uma boa imitação quem entende profundamente o original, e só sabe confiar na imitação quem continua medindo a distância entre ela e o mundo. Quem perde essa distância de vista não automatizou a privacidade, automatizou o erro.

Se você está avaliando dados sintéticos para um produto de IA ou para um projeto com dado sensível, e quer separar o ganho real do risco escondido, vale conversar. Tenho outros textos no blog sobre governança de dados, privacidade e adoção responsável de IA.