Existe um pressuposto confortável que domina a maioria das decisões de infraestrutura de IA: GPU é o chip de IA. Se você precisa rodar um modelo, você usa GPU. O raciocínio tem mérito histórico — a GPU foi o hardware que tornou o deep learning viável em escala, e o mercado de nuvem foi construído em torno dela. O problema é que o pressuposto virou hábito, e hábito é caro quando há alternativa mais eficiente para a sua carga específica.
Por que a GPU dominou e por que isso começa a mudar
A GPU ganhou o mercado de IA por flexibilidade, não por eficiência. Ela faz operações de matriz em paralelo de forma razoavelmente boa tanto para treinar modelos quanto para inferência — e razoavelmente boa em dois domínios distintos é uma vantagem quando você ainda não sabe qual será a carga dominante.
O problema começa quando a carga estabiliza. Treinar um modelo grande é um evento; servir respostas a usuários reais é uma operação contínua, previsível e repetitiva. O mesmo tipo de cálculo, bilhões de vezes por dia. Nesse regime, a flexibilidade da GPU vira custo — você paga por capacidade genérica que não usa, por consumo de energia que excede o necessário, por uma arquitetura pensada para versatilidade quando você não precisa mais dela.
Foi esse diagnóstico que levou as maiores empresas de IA a investirem em chips especializados para inferência. Não é aposta ideológica. É cálculo de custo por token em escala que não fecha com GPU.
O que cada arquitetura especializada resolve
O TPU v5p do Google nasceu dentro de um problema concreto: a infraestrutura do Google processa inferência em volume que tornaria o custo com GPU insustentável. O TPU foi desenhado para multiplicação de matrizes de baixa precisão — exatamente o que redes neurais fazem — com largura de banda de memória otimizada para esse padrão de acesso. Hoje está disponível no Google Cloud, mas ter sido construído para consumo interno antes de virar produto é um indicativo do quanto a economia importa em escala.
O Inferentia2 da AWS seguiu trajetória parecida: quatro vezes melhor em desempenho por watt que a GPU equivalente, validado em produção real para Alexa e para os sistemas de recomendação da Amazon antes de chegar aos clientes do EC2. Benchmark de laboratório é uma coisa, pressão de tráfego real é outra.
O LPU da Groq ataca um gargalo diferente. A maioria dos chips de IA ainda esbarra no mesmo problema: o processador é rápido, mas a memória não alimenta dados na mesma velocidade. A Groq criou execução determinística onde cada operação acontece em tempo previsível, sem espera. O resultado é velocidade de inferência de texto que supera GPU por margem significativa para modelos de linguagem — não porque o chip faz mais operações por segundo, mas porque elimina o tempo parado esperando por dados.
O Cerebras CS-3 resolve algo diferente ainda. Modelos grandes demais para caber num único chip de GPU precisam ser divididos entre múltiplos chips, introduzindo latência de comunicação. O Cerebras colocou o modelo inteiro numa única pastilha de silício do tamanho de uma bolacha — o maior chip de computador já fabricado em área. Sem comunicação entre chips, sem esse gargalo. A limitação é que poucos modelos são grandes o suficiente para que o tradeoff faça sentido.
O cálculo que decide se você deve migrar
A lógica de decisão entre GPU e ASIC é mais simples do que parece. Três perguntas precisam ter resposta afirmativa antes de a especialização fazer sentido.
O workload de inferência é estável? Se você troca de modelo todo mês, experimenta arquiteturas, testa hipóteses, a flexibilidade da GPU é o que você precisa e o custo dela é o preço disso. Chip especializado com carga instável é dinheiro enterrado.
O volume já é alto o suficiente para que a diferença de custo por token seja relevante? O ganho de eficiência de um ASIC aparece em escala. Em volumes pequenos, o diferencial é absorvido pela amortização do hardware e pela complexidade operacional. Há um ponto de cruzamento — diferente para cada empresa — abaixo do qual a GPU é simplesmente mais prática.
Você já gasta o suficiente com inferência para que a otimização valha o esforço? Mudar de GPU para ASIC tem custo operacional real: adaptação de software, validação de resultados, nova infraestrutura para operar. Esse custo precisa ser menor que a economia projetada em horizonte razoável.
A armadilha da flexibilidade perpétua
A inércia tem uma narrativa que parece prudente: "GPU nos dá flexibilidade para mudar de modelo quando precisarmos." O argumento é válido na fase de experimentação e se torna uma armadilha quando a operação amadurece. A flexibilidade que você paga para ter deixa de ser exercida — o modelo de produção não muda toda semana — mas o custo permanece. Você está pagando pelo optativo que nunca usa.
Isso acontece porque a decisão de hardware raramente é revisitada depois que a pilha inicial funciona. O time que fez o deploy em GPU move para o próximo projeto. A conta chega todo mês, mas ninguém compara o custo por token atual com o que seria possível num chip especializado. A ausência de revisão não é racionalidade — é inércia com aparência de estabilidade.
O que avaliar antes de se comprometer
Nem toda empresa que deveria migrar vai migrar logo, e isso não é necessariamente erro. A maturidade dos toolchains de ASIC ainda é menor que a de GPU. Groq oferece inferência como serviço, sem que você precise operar o hardware — remove boa parte do atrito. Inferentia exige trabalhar dentro do ambiente AWS com as ferramentas de compilação da Amazon. TPU tem o ambiente mais maduro, mas está limitado ao Google Cloud.
A decisão mais sensata para a maioria das empresas não é migração total para ASIC. É identificar quais workloads de inferência são estáveis e volumosos o suficiente para justificar o chip especializado, movê-los para o ambiente mais eficiente, e manter GPU para o que ainda está em evolução. Portfólio misto, decisão por carga, não por ideologia de plataforma. O preço de ficar inteiramente em GPU por comodidade é pagar a taxa de flexibilidade para sempre — mesmo quando flexibilidade já não é o que você precisa.
Leia também
- Chips especializados e o fim da era da CPU genérica
- Computação neuromórfica e bio-inspirada: quando o chip começa a aprender com o cérebro
- IA eficiente em energia: quando menor e mais barato vence maior
- Inferência em borda: quando rodar IA no dispositivo faz mais sentido que na nuvem
- A nova geração de chips: GPU, NPU, ASIC e RISC-V para quem decide
- AI PCs e NPU: o que muda quando o dispositivo ganha acelerador de IA