Observabilidade em Sistemas Distribuídos: Logs, Métricas e Tracing

Em ambientes de microserviços, saber o que está acontecendo dentro da aplicação é essencial. Observabilidade vai além de simples monitoramento, ela permite que você faça perguntas ao seu sistema e receba respostas confiáveis.

Três Pillars da Observabilidade

Logs estruturados, registros de eventos em formato JSON, facilitando consultas.
Métricas, valores numéricos ao longo do tempo (latência, taxa de erro, uso de CPU).
Tracing distribuído, rastreamento de requisições que atravessam múltiplos serviços.

Estratégia de Implementação

Centralizar logs usando Elastic Stack (Filebeat → Logstash → Elasticsearch → Kibana) ou serviços gerenciados como CloudWatch Logs.
Exportar métricas para Prometheus e visualizá-las no Grafana.
Instrumentar código com OpenTelemetry, enviando spans para Jaeger ou Zipkin.

Checklist de Observabilidade

Configurar logger JSON (ex.: Winston, Bunyan).
Definir service.name e environment em todos os logs.
Exportar métricas padrão (process_cpu_seconds_total, process_resident_memory_bytes).
Instrumentar HTTP clients e servidores com OpenTelemetry.
Criar dashboards de latência, taxa de erro e throughput.
Definir alertas de SLA (ex.: latência > 500 ms, erro > 1 %).
Documentar correlação de IDs (trace_id, span_id).

Exemplo de Logger JSON (Node.js)

const winston = require('winston');

const logger = winston.createLogger({
  level: 'info',
  format: winston.format.combine(
    winston.format.timestamp(),
    winston.format.json()
  ),
  defaultMeta: {
    service: process.env.SERVICE_NAME,
    environment: process.env.NODE_ENV
  },
  transports: [new winston.transports.Console()]
});

module.exports = logger;

Exemplo de Métrica Custom com Prometheus (Node.js)

const client = require('prom-client');

const requestDuration = new client.Histogram({
  name: 'http_request_duration_seconds',
  help: 'Duração das requisições HTTP em segundos',
  labelNames: ['method', 'route', 'status_code']
});

app.use((req, res, next) => {
  const end = requestDuration.startTimer({ method: req.method, route: req.path });
  res.on('finish', () => end({ status_code: res.statusCode }));
  next();
});

Exemplo de Tracing com OpenTelemetry (Node.js)

const { NodeTracerProvider } = require('@opentelemetry/sdk-trace-node');
const { SimpleSpanProcessor } = require('@opentelemetry/sdk-trace-base');
const { JaegerExporter } = require('@opentelemetry/exporter-jaeger');

const provider = new NodeTracerProvider();
provider.addSpanProcessor(new SimpleSpanProcessor(new JaegerExporter({
  endpoint: process.env.JAEGER_ENDPOINT
})));
provider.register();

Conclusão

Implementar observabilidade requer disciplina, mas traz retorno imediato: detecção precoce de falhas, redução de MTTR (Mean Time To Recovery) e confiança para escalar sistemas críticos.

Como você monitora seus serviços? Compartilhe suas ferramentas favoritas!