Multi-cloud como estratégia de resiliência e não apenas de custo

Existe uma diferença fundamental entre ter contas ativas em dois provedores de nuvem e operar uma arquitetura multi-cloud resiliente. A primeira é uma postura de procurement. A segunda é uma decisão de engenharia com custos operacionais reais, complexidade permanente e benefícios que só se materializam quando algo catastrófico acontece. A confusão entre as duas tem levado empresas a gastar dinheiro em redundância que não funciona na hora que precisa — e a descobrir isso da pior forma, durante um incidente de produção.

Por que as empresas vão para multi-cloud pelos motivos errados

A conversa que leva à adoção de multi-cloud começa, com frequência, no departamento de compras ou na diretoria financeira. A lógica é aparentemente sólida: se você tem contratos com AWS e Azure, nenhum dos dois pode te prender em condições abusivas. A competição entre provedores mantém os preços em cheque e você tem saída se a relação deteriorar.

Esse raciocínio não é errado como estratégia de negociação. O problema é confundir alavancagem comercial com resiliência técnica. Uma empresa que roda 90% da carga na AWS e mantém uma conta Azure com alguns serviços periféricos não tem arquitetura multi-cloud — tem diversificação de fornecedores. Se a AWS tiver uma indisponibilidade regional grave, o ambiente Azure não vai absorver a carga automaticamente. Vai precisar de horas ou dias de trabalho manual, migração de dados, reconfiguração de redes, e uma equipe que entenda profundamente os dois ambientes. Isso não é resiliência, é um plano de contingência que nunca foi testado.

O que resiliência multi-cloud de verdade requer

Arquitetura ativa-ativa em múltiplos provedores — o único modelo que entrega resiliência real — pressupõe que a aplicação roda simultaneamente nos dois ambientes com capacidade para absorver a carga total em qualquer um deles. Isso exige sincronização de estado entre as nuvens, balanceamento de carga global, gestão de latência entre ambientes e estratégias de consistência de dados que funcionem sob pressão.

O banco de dados é quase sempre o gargalo. Dados em repouso são inerentemente mais difíceis de replicar entre provedores do que computação. Os provedores oferecem serviços gerenciados de replicação dentro do próprio ambiente, mas replicação cross-cloud para serviços nativos de cada provedor não existe como produto pronto — precisa ser construída. Isso significa escolher bancos de dados que suportem replicação cross-cloud (PostgreSQL com configuração adequada, CockroachDB, YugabyteDB) ou aceitar que os dados têm um único provedor de verdade e que a resiliência se aplica apenas à camada de aplicação.

A camada de rede também muda de forma significativa. Conectar VPCs de provedores diferentes com latência aceitável e segurança adequada requer configuração de VPN ou interconexões privadas (AWS Direct Connect, Azure ExpressRoute) que custam mais do que a infraestrutura de computação em muitos casos.

O custo operacional que ninguém menciona no pitch

Equipes de infraestrutura especializadas em um provedor já têm o trabalho de manter-se atualizadas com lançamentos constantes, mudanças de serviço e melhores práticas. Dobrar essa complexidade para dois provedores que têm abstrações diferentes, terminologia diferente, ferramentas de observabilidade diferentes e modelos de precificação diferentes é dobrar a carga cognitiva da equipe — ou contratar engenheiros com proficiência nos dois ambientes, que são mais raros e mais caros.

Ferramentas de infraestrutura como código precisam ser escritas para abstrair as diferenças entre provedores, o que frequentemente significa camadas adicionais de abstração (Terraform com módulos agnósticos de provedor) que aumentam a complexidade sem adicionar funcionalidade visível. Observabilidade unificada — crucial para diagnosticar incidentes que cruzam ambientes — requer uma plataforma de monitoramento neutra (Datadog, New Relic, Grafana Cloud) que agrega métricas dos dois provedores, o que é mais um custo e mais uma integração para manter.

O resultado prático é que o custo real de operar multi-cloud ativo-ativo é entre 30% e 50% maior do que operar o mesmo workload em um único provedor, considerando computação, rede, storage, e custo de equipe. Antes de comprometer com essa arquitetura, a pergunta certa é: qual o custo de uma indisponibilidade de 4 horas para o negócio? Se a resposta for menor do que o custo de manter a resiliência, a matemática favorece uma estratégia diferente.

Quando multi-cloud é a resposta certa

Há casos em que o overhead se justifica claramente. Serviços financeiros e infraestrutura crítica que têm SLAs regulatórios de disponibilidade acima de 99,99% e onde uma indisponibilidade causa dano regulatório ou financeiro imediato. Plataformas com cobertura global onde latência importa e provedores diferentes têm melhor presença em regiões específicas. Organizações que tiveram incidentes graves de provedor e precisam demonstrar para clientes e reguladores que a dependência foi endereçada.

Fora desses contextos, a estratégia de resiliência mais eficiente para a maioria das empresas é multi-região em um único provedor, com disaster recovery bem documentado e testado. AWS us-east-1 caindo com workloads em us-west-2 prontos para assumir entrega o mesmo resultado prático para a maioria dos cenários de falha, com uma fração da complexidade operacional.

A distinção relevante para tomar essa decisão é entre failure domains. Se a preocupação é uma região específica cair, multi-região resolve. Se a preocupação é o provedor inteiro falhar ou ser descontinuado, multi-cloud é necessário. A segunda hipótese é tecnicamente possível mas historicamente rara nos três maiores provedores. Calibrar a estratégia de resiliência com base no risco real, não no risco imaginado, é o que separa uma decisão de arquitetura sólida de um projeto caro que resolve um problema que não existe.

Como avaliar antes de construir

A avaliação correta começa com um mapeamento honesto de dependências. Quais serviços nativos de provedor a aplicação usa atualmente? Quantos deles têm equivalente funcional no segundo provedor? O esforço de portar para serviços agnósticos ou compatíveis é proporcional ao benefício buscado?

O próximo passo é simular uma falha de provedor antes de construir redundância. Quanto tempo levaria para restaurar operação em um segundo provedor a partir do estado atual? Quais dados seriam perdidos? Quais processos manuais seriam necessários? Essa simulação — que não precisa ser feita em produção, pode ser um exercício de paper architecture — frequentemente revela que o caminho mais rápido para resiliência não é multi-cloud mas sim melhorar os processos de recuperação no provedor atual. Só depois de esgotar essa opção a complexidade adicional de multi-cloud se justifica.

Multi-cloud como estratégia de resiliência e não apenas de custo

Por que as empresas vão para multi-cloud pelos motivos errados

O que resiliência multi-cloud de verdade requer

O custo operacional que ninguém menciona no pitch

Quando multi-cloud é a resposta certa

Como avaliar antes de construir

Leia também