A nova geração de chips: GPU, NPU, ASIC e RISC-V para quem decide

Durante uma década, hardware foi assunto que a maioria dos líderes de tecnologia podia terceirizar mentalmente. Você escolhia uma nuvem, pedia mais máquinas, pagava a conta. A camada física era abstração, e abstração é exatamente o que um gestor quer: não pensar no problema.

Essa folga acabou. O custo de rodar inteligência artificial transformou o tipo de chip numa decisão de negócio, com impacto direto em margem, latência e dependência de fornecedor. A conversa sobre GPU, NPU, ASIC e RISC-V saiu da engenharia e chegou ao comitê de produto, mesmo que ainda fale uma língua que poucos do comitê entendem.

Este artigo traduz essa língua. Não para você projetar silício, e sim para reconhecer quando uma escolha de hardware está, na verdade, definindo o teto de uma estratégia.

Por que o hardware voltou ao centro

A explicação curta: software ficou faminto de um jeito que processadores de propósito geral não acompanham bem.

Modelos de IA fazem um tipo de conta repetitiva e massiva, multiplicação de matrizes, em volume que não cabe confortavelmente numa CPU comum. Quando a carga de trabalho muda de natureza, o hardware que era genérico vira gargalo. E gargalo de hardware não se resolve com código mais esperto, se resolve com chip diferente.

Some a isso a economia. Treinar e servir modelos consome energia em escala que aparece na fatura e no balanço de sustentabilidade. Cada watt economizado por consulta vira margem quando você multiplica por milhões de requisições. O hardware deixou de ser custo fixo invisível e virou alavanca de custo variável, e tudo que mexe em custo variável vira pauta de quem decide.

A consequência prática: empresas que tratam chip como commodity intercambiável estão pagando mais caro ou entregando mais devagar que concorrentes que escolheram conscientemente.

GPU: o cavalo de trabalho flexível

A GPU (unidade de processamento gráfico) nasceu para jogos e renderização, e por acidente feliz resolveu o problema da IA antes de a IA virar moda. Ela faz muitas contas em paralelo, que é justamente o que treinar uma rede neural exige.

A virtude da GPU é a flexibilidade. Ela roda quase qualquer carga de IA, do treinamento à inferência, de visão computacional a modelos de linguagem. Se você não sabe ainda qual será sua carga dominante, a GPU é a aposta segura porque erra pouco em qualquer cenário.

O custo dessa flexibilidade aparece em dois lugares: preço e energia. GPU de ponta é cara, disputada e consome muito. Você paga por capacidade genérica mesmo quando sua carga é específica e previsível. Para o líder, a regra mental é simples: GPU é o que você usa quando ainda está aprendendo o que precisa, ou quando a variedade de cargas justifica não se especializar.

NPU: o acelerador que mora no dispositivo

A NPU (unidade de processamento neural) é um chip desenhado para uma tarefa estreita: rodar inferência de IA com pouca energia. Ela não treina modelos gigantes, ela executa modelos prontos de forma eficiente, e é por isso que está aparecendo dentro de notebooks e celulares.

A mudança que a NPU habilita é a inferência local. Em vez de mandar todo dado do usuário para um servidor, processar e devolver, parte do trabalho acontece no próprio aparelho. Isso muda três coisas que um gestor entende sem precisar de diagrama: latência (resposta instantânea), privacidade (o dado não viaja) e custo (você não paga nuvem por aquela consulta).

A NPU é o motor por trás da onda de AI PCs e de apps que se descrevem como NPU-first, pensados desde o início para rodar no dispositivo. Para produto, abre uma categoria de funcionalidade que antes era cara demais ou lenta demais para existir. Vale aprofundar em IA local no dispositivo, porque a decisão de onde a inferência acontece é estratégica antes de ser técnica.

ASIC: especializar para ganhar custo e energia

O ASIC (circuito integrado de aplicação específica) é o oposto da GPU na filosofia. Em vez de servir para tudo, ele é desenhado para fazer uma coisa, e fazer essa coisa com eficiência que nenhum chip genérico alcança.

A troca é direta. Você abre mão de flexibilidade e ganha custo por operação e consumo de energia muito menores para a carga específica que o chip atende. Para inferência em escala, em que você roda o mesmo tipo de modelo bilhões de vezes, essa especialização vira vantagem econômica que se acumula.

O preço de entrada é alto. Projetar um ASIC custa caro e demora, e o chip nasce engessado: se sua carga mudar, o silício não acompanha. Por isso ASIC só faz sentido quando o volume é grande e a carga é estável. É decisão de quem já sabe exatamente o que vai rodar, e em que escala.

RISC-V: a arquitetura aberta entrando pela borda

RISC-V não é um chip, é uma especificação de como o chip conversa com o software, uma ISA (arquitetura de conjunto de instruções). A diferença que importa: ela é aberta. Qualquer um pode usar, modificar e fabricar sem pagar licença a um dono.

Isso parece detalhe técnico e é, na verdade, uma questão de poder. Arquiteturas fechadas concentram dependência num punhado de fornecedores que cobram royalties e ditam roteiro. Uma ISA aberta redistribui esse controle: reduz custo de licença, permite customização profunda e dá soberania a quem não quer ficar refém de uma cadeia que não controla.

O RISC-V avança primeiro no edge e em IoT, onde os chips são mais simples e a sensibilidade a custo é alta. Lá a maturidade já basta. Em cargas pesadas e de propósito geral, o ecossistema ainda está se formando, ferramentas, suporte, software, e maturidade de ecossistema não se compra com vontade, se constrói com tempo.

Como o líder lê esse tabuleiro

A tentação é torcer por um vencedor. O tabuleiro real é de coexistência, e a competência de quem decide é casar a carga ao chip certo.

GPU para o que ainda é incerto ou variado. NPU para inferência no dispositivo, perto do usuário. ASIC para inferência em escala com carga estável. RISC-V para o edge e para reduzir dependência onde a maturidade já permite. Custom silicon, quando você opera em escala que justifica desenhar o próprio, assunto que merece capítulo à parte.

A pergunta certa não é qual chip é melhor. É qual é a sua carga dominante, quão estável ela é, e quanto a latência, a energia e a dependência de fornecedor pesam no seu modelo de negócio. A resposta a isso escolhe o silício, não o contrário. E o ganho de eficiência energética em IA costuma vir mais da escolha de hardware do que de qualquer otimização de código posterior.

Se você lidera tecnologia e ainda trata chip como linha de infraestrutura, vale subir essa decisão um nível. O hardware voltou a ser estratégia, e estratégia delegada por inércia é estratégia perdida.