GitHub

Por décadas, a CPU foi tratada como um recurso genérico: você aumentava a frequência, adicionava núcleos, e os problemas de processamento simplesmente se resolviam. Essa conveniência criou um vício intelectual perigoso. Líderes de tecnologia passaram a ignorar hardware como variável estratégica, delegando a escolha a equipes de infraestrutura que compravam o que estava no catálogo. Era uma simplificação aceitável num mundo onde os workloads de negócio — relatórios, transações, páginas web — tinham perfis computacionais parecidos. Esse modelo funcionou enquanto os workloads eram relativamente homogêneos. Com IA generativa, inferência em larga escala e computação embarcada, ele quebrou de vez. O hardware voltou a ser uma escolha com consequências reais.

Por que a CPU perdeu o protagonismo

A CPU foi projetada para versatilidade. Ela executa instruções sequenciais com muita lógica de controle, caches sofisticados e mecanismos de previsão de salto. Para um banco de dados transacional ou um servidor web, isso é exatamente o que você precisa. Para treinar uma rede neural com bilhões de parâmetros, é um desperdício monumental. A maior parte do silício está ocupada com lógica que nunca é acionada naquele tipo de carga.

O problema central é que operações de aprendizado de máquina são matematicamente repetitivas. Multiplicações de matrizes, convoluções, operações de ativação: tudo isso se beneficia de paralelismo massivo, não de flexibilidade. A GPU foi a primeira a explorar isso, com milhares de núcleos simples operando em conjunto. Mas a GPU também é um compromisso, projetada originalmente para gráficos e adaptada para IA. O resultado é um hardware capaz, porém com eficiência energética e custo que ainda deixam espaço para algo mais especializado.

O que TPU, NPU e ASIC fazem de diferente

A TPU, desenvolvida pelo Google, foi construída especificamente para operações de álgebra linear em larga escala. Ela não tenta ser um processador de propósito geral com capacidade de IA: ela faz muito bem uma coisa, que é executar as operações tensoras que sustentam os modelos do TensorFlow e, mais recentemente, do JAX. O custo por operação cai de forma dramática quando o hardware não carrega o peso de funcionalidades que nunca serão usadas naquele contexto.

A NPU, por sua vez, joga um jogo diferente. Em vez de treinar modelos na nuvem, ela executa inferência diretamente no dispositivo, seja um smartphone, um sensor industrial ou um carro autônomo. A Apple integrou NPUs nos chips da série A desde 2017 e os resultados são visíveis: reconhecimento facial, tradução em tempo real e geração de texto local que não dependem de conexão com servidores. A Qualcomm e a MediaTek seguiram o mesmo caminho com seus SoCs. O que parecia futuro distante tornou-se o padrão nos telefones premium e está descendo rapidamente para o mercado intermediário.

O ASIC representa o extremo da especialização. Você projeta um chip para resolver um problema específico e só aquele problema, com eficiência máxima e custo marginal baixíssimo em produção de volume. Os mineradores de Bitcoin foram os primeiros a demonstrar a escala desse raciocínio. Hoje, empresas como a Groq e a Cerebras constroem ASICs para inferência de LLMs com latência e custo por token que as GPUs de propósito geral simplesmente não conseguem igualar no mesmo envelope de energia.

O FPGA como ponto intermediário que poucos consideram

Entre o ASIC e a GPU existe um território pouco explorado por equipes de produto: o FPGA. O campo programável de portas lógicas permite que o hardware seja reconfigurado depois de fabricado, o que elimina o risco de apostar em um design fixo antes de o produto estar maduro. A Microsoft usa FPGAs nos servidores do Azure para aceleração de rede e inferência de modelos específicos. A Intel comprou a Altera justamente para capturar esse mercado.

Para produtos que precisam de aceleração customizada mas ainda não têm volume suficiente para justificar um ASIC próprio, o FPGA oferece um meio-termo inteligente. O custo por unidade é mais alto que um ASIC em volume, mas o risco de desenvolvimento é drasticamente menor. Times que ignoram essa opção tendem a cair em um de dois erros: ficam presos na CPU por conservadorismo ou apostam em ASIC cedo demais e precisam refazer o design quando o produto muda. O FPGA compra tempo para aprender sem jogar fora o investimento.

A decisão de chip como decisão de produto

Aqui está o ponto que a maioria das organizações ainda não internalizou: a escolha de hardware deixou de ser exclusivamente uma decisão de infraestrutura e virou uma variável de produto com impacto direto em custo, latência, privacidade e experiência do usuário. A camada de silício voltou a importar, e ignorá-la é uma vantagem que você está cedendo ao concorrente.

Quando você decide rodar inferência de IA no dispositivo em vez da nuvem, você está escolhendo privacidade dos dados, latência zero e funcionamento offline. Isso não é uma preferência técnica. É uma promessa de produto. E ela depende de um NPU adequado no hardware-alvo. Se o seu público-alvo usa dispositivos com chips que não têm NPU eficiente, a experiência de produto vai ser ruim independentemente de quão bom for o modelo.

Da mesma forma, a decisão de usar TPUs proprietárias do Google Cloud versus GPUs da NVIDIA versus ASICs como os da Groq não é apenas sobre preço por hora de computação. É sobre latência de resposta, sobre capacidade de escalar picos de demanda, sobre o custo por consulta que o seu modelo de negócio precisa suportar. Times de produto que deixam essa decisão inteiramente com infraestrutura estão, na prática, terceirizando uma variável competitiva central.

A pergunta estratégica correta deixou de ser "quantas GPUs precisamos?" e se tornou "qual a geometria de chips que serve melhor este workload específico, neste contexto de implantação, com este envelope de custo e latência?" Essa pergunta exige que produto, engenharia e infraestrutura sentem à mesma mesa. Organizações que ainda tratam hardware como detalhe de procurement vão descobrir isso da maneira difícil, quando um concorrente entregar a mesma funcionalidade com um terço do custo operacional por ter feito essa escolha deliberadamente.

Chips especializados e o fim da era da CPU genérica

Por que a CPU perdeu o protagonismo

O que TPU, NPU e ASIC fazem de diferente

O FPGA como ponto intermediário que poucos consideram

A decisão de chip como decisão de produto

Leia também