GitHub

Quase todo projeto de IA esbarra, em algum momento, na mesma parede: faltam dados. Faltam exemplos do caso raro que mais importa. Faltam rótulos, porque rotular é caro e lento. Falta volume para a classe sub-representada que o modelo erra justamente por não ter visto o suficiente. O dado existe em teoria, mas não na quantidade e na qualidade que o problema exige.

Dados sintéticos entram como uma forma de aliviar essa escassez. Em vez de esperar o mundo produzir mais exemplos, você gera exemplos que seguem a estrutura dos reais. A ideia é sedutora e, em vários casos, funciona. Mas ela carrega um risco específico, e quem lidera IA precisa entender esse risco antes de apostar a performance do modelo nele.

Por que faltam dados, e como o sintético ajuda

Há três escassez que aparecem com frequência.

A primeira é de volume. Modelos modernos pedem muitos exemplos, e nem todo problema tem histórico longo. Um produto novo, um mercado pequeno, um idioma específico, tudo isso começa com pouco dado.

A segunda é de rótulo. Você até tem os dados, mas não anotados. Saber quais imagens contêm um defeito, quais textos são reclamações, quais transações são fraude, isso depende de trabalho humano caro. Dados sintéticos podem nascer já rotulados, porque você sabe o que gerou.

A terceira é de equilíbrio. Em muitos problemas, a classe que mais importa é a mais rara. Fraude é rara, falha de equipamento é rara, doença específica é rara. O modelo aprende mal o que vê pouco. Gerar exemplos sintéticos da classe rara ajuda a equilibrar o treino.

Dados sintéticos atacam as três. Você gera volume, gera com rótulo conhecido e gera mais exemplos de onde precisa. Em domínios como visão computacional, é comum treinar parte do modelo com cenas geradas artificialmente, controlando iluminação, ângulo e variação de um jeito que o mundo real não oferece de graça. O dado é artificial, mas o que o modelo aprende com ele pode transferir para o real.

Os ganhos que justificam a aposta

Quando funciona, o retorno aparece em frentes concretas.

Você reduz o tempo de partida. Em vez de esperar meses acumulando dado real, começa a treinar com uma base sintética e melhora à medida que o dado verdadeiro chega.

Você cobre o caso raro. O cenário que quase nunca aparece, mas que custa caro quando aparece, pode ser gerado de propósito, em volume, para o modelo aprender a reconhecê-lo.

Você contorna a barreira de privacidade. Onde o dado real é sensível demais para alimentar o treino, uma versão sintética abre caminho, assunto que trato em dados sintéticos como ferramenta de privacidade.

Você ganha controle sobre o que o modelo vê. Em vez de aceitar os vieses do dado coletado, você pode, em tese, gerar um conjunto mais equilibrado e mais representativo do que quer que o modelo aprenda.

Essa última vantagem, controle, é também onde mora a armadilha. Porque controlar o que o modelo vê só ajuda se você controlar para o lado certo.

O risco central: model collapse

Existe um fenômeno que todo líder de IA deveria conhecer pelo nome: model collapse, ou colapso de modelo. Ele acontece quando modelos passam a ser treinados, rodada após rodada, com dados gerados por outros modelos, em vez de dados reais.

A lógica do problema é simples. Todo gerador é uma aproximação imperfeita do real. Ele captura bem o centro da distribuição, os casos comuns, e captura mal as bordas, os casos raros e a verdadeira variedade dos dados. Quando você treina um novo modelo com a saída de um anterior, ele aprende essa versão já empobrecida. Gere de novo, treine de novo, e a cada ciclo a diversidade encolhe. As bordas somem primeiro. Com o tempo, o modelo converge para uma versão estreita e confiante de si mesmo, cada vez mais distante da riqueza do mundo real.

O sintoma é traiçoeiro porque, no começo, as métricas podem até parecer boas. O modelo acerta o comum com folga. Só que ele perde a cauda, perde o caso raro, perde a capacidade de lidar com o inesperado. E o caso raro costuma ser exatamente o que importa em produção.

Esse risco não exige um cenário extremo de "só dado sintético" para se manifestar. Basta o sintético dominar o treino, ou ser gerado por um modelo que herdou os defeitos de outro, para a degradação começar a se acumular.

Viés herdado: o sintético amplia o que recebe

Antes mesmo do colapso, existe um problema mais imediato: viés. Um gerador aprende com o dado real. Se o dado real é enviesado, e quase todo dado real é, o gerador aprende esse viés e o reproduz no que cria.

Pior: ele pode amplificar. Se uma base sub-representa um grupo, o modelo gerador tende a representá-lo ainda pior, porque viu menos exemplos para aprender sua variação. O dado sintético resultante parece neutro, parece "limpo", mas carrega o mesmo desequilíbrio do original, agora com a aparência de algo novo e controlado.

Esse é um risco que se esconde bem. O dado sintético tem cara de objetivo. Ninguém vê o CPF de uma pessoa real ali, então a falsa sensação é de que o problema de viés ficou para trás. Não ficou. Treinar IA com dado sintético enviesado é ensinar o modelo a errar de forma sistemática, com a vantagem perversa de parecer mais limpo do que é.

Como usar sem se enganar

A regra que repito ao time é que dado sintético complementa o real, não o substitui no fechamento. Algumas práticas que sustentam isso.

Mantenha dado real no laço. Use o sintético para aumentar e equilibrar o treino, mas valide e calibre sempre contra dado real. O real é a âncora que impede o modelo de derivar para a própria imitação.

Misture com proporção consciente. Tratar a fração de dado sintético no treino como um parâmetro de decisão, e não como um detalhe, ajuda a evitar que ele domine sem que ninguém tenha decidido isso.

Avalie no real, não no sintético. A performance que conta é a que aparece quando o modelo enfrenta dado verdadeiro de produção. Métrica boa em conjunto sintético pode estar apenas confirmando o próprio viés do gerador.

Vigie a cauda. Olhe especificamente para os casos raros e para os grupos minoritários. É lá que o colapso e o viés batem primeiro, e é lá que o monitoramento precisa ser mais atento. O mesmo cuidado de não confiar cegamente em saída de modelo vale para código, como discuto em confiar em código gerado por IA.

Documente a origem do dado. Saber qual parte do treino foi real e qual foi sintética, e por qual gerador, é o que permite investigar quando algo der errado. Sem rastreabilidade, você não consegue distinguir um problema de dado de um problema de modelo.

A decisão de quem lidera

Dado sintético para treinar IA é uma alavanca legítima e, em muitos casos, a diferença entre um projeto viável e um projeto travado pela falta de dado. Mas é uma alavanca que exige mão firme.

A pergunta que o líder precisa fazer não é "podemos gerar dado?", e sim "validamos que esse dado melhora o modelo no mundo real, sem herdar viés nem empobrecer a diversidade?". Se a resposta vem com medição e com dado real no laço, o sintético é aliado. Se vem com entusiasmo e sem evidência, ele é uma dívida que vence em produção, no pior momento possível.

Comece tratando dado sintético como parte do experimento, não como atalho. Defina a hipótese, meça contra o real e só então decida ampliar. O modelo que você coloca em produção carrega tudo o que ensinou a ele, inclusive o que você não percebeu que ensinou.