Üç sinyal, bir yığın
Modern observability = metrik + log + trace. Her biri diğerinin söyleyemediği bir şeyi söyler. Prometheus + Loki + Tempo + Grafana ("PLTG") yığını 2026'da açık kaynak varsayılan olarak ortaya çıktı.Metrikler: Prometheus
- Retention gereksiniminiz ne? Yerel Prometheus = varsayılan 15 gün. Uzun-vadeli Thanos veya Mimir gerektirir.
- Cardinality bütçeniz ne? Yüksek-cardinality label'lar (user_id, request_id) depolamayı patlatır.
- Pull mu push mu? Prometheus varsayılan olarak pull-based. Kısa ömürlü job'lar için Pushgateway.
Loglar: Loki
Label'ları indeksler ama log içeriğini değil.- Kazandığı yer — küçük label setiyle sorgu, içinde grep. Ölçekte maliyet-etkili.
- Acıdığı yer — yıllar log boyunca tam metin arama Elasticsearch / Splunk'tan yavaş.
Trace'ler: Tempo
Servis sınırları arası istek başına gecikme dökümü.- Sampling — her trace'i tutmak pahalı. Head sampling miss eder; tail sampling daha faydalı ama işletmek zor.
- Instrumentation — auto-instrumentation çoğu framework'ü kapsar.
- Cross-service korelasyon — trace context (W3C Trace Context) yayın.
Dashboard disiplini
- Servis başına operasyonel dashboard'lar — RED metrikleri (Rate, Errors, Duration).
- Özellik başına dashboard'lar.
- SLO / error budget dashboard'ları.
- Org düzeyi genel bakışlar.
Her dashboard'un belgelenmiş izleyicisi ve runbook referansı var.
Ekibi yakmayan alerting
- Sebeplere değil semptomlara alert. "Kullanıcı gecikmesi SLO'yu aştı" "CPU %80'de" değil.
- Her alert runbook'a işaret eder.
- Her alertin sahibi var.
- Test edilmiş escalation yolları.
- Üç aylık alert incelemesi.
Observability maliyeti
- Aksiyon alınmayan yüksek-cardinality metrikleri sample / drop edin.
- Üretimden debug-level logları drop edin.
- Trace'leri tail-sample edin.
- Storage'ı tier'lendirin.
Yığının değerli yapan cross-link
Metrik anomalisinden aynı servisin aynı penceresinin loglarına tıklayın. Yavaş trace'ten alttaki loglara tıklayın. Hata log'undan parçası olduğu trace'e tıklayın.Uyaracağımız bir desen
Tam yığına bağlanmadan OpenTelemetry'i benimsemek.PLTG yığınınız nedir?
Three signals, one stack
Modern observability is metrics + logs + traces. The Prometheus + Loki + Tempo + Grafana ("PLTG") stack has emerged as the open-source default in 2026.Metrics: Prometheus
- Retention? Local Prometheus = 15 days default. Long-term needs Thanos or Mimir.
- Cardinality budget? High-cardinality labels blow up storage.
- Pull or push? Prometheus is pull-based. Pushgateway for ephemeral jobs.
Logs: Loki
Indexes labels but not log content.- Where it wins — query by small label set and grep within.
- Where it hurts — full-text search across years is slower than ELK / Splunk.
Traces: Tempo
Per-request latency breakdowns across service boundaries.- Sampling — head sampling misses interesting traces; tail sampling is more useful but harder to operate.
- Instrumentation — auto-instrumentation covers most frameworks.
- Cross-service correlation — propagate W3C Trace Context.
The dashboard discipline
- Per-service operational dashboards — RED metrics.
- Per-feature dashboards.
- SLO / error budget dashboards.
- Org-level overviews.
Alerting that doesn't burn the team out
- Alert on symptoms, not causes.
- Each alert points to a runbook.
- Each alert has an owner.
- Tested escalation paths.
- Quarterly alert review.
The cost of observability
- Sample / drop high-cardinality metrics not actionable.
- Drop debug-level logs from production.
- Tail-sample traces.
- Tier storage.
The cross-link
From a metric anomaly, click to logs from the same service. From a slow trace, click to underlying logs.One pattern we'd warn about
Adopting OpenTelemetry without committing to its full stack.What's your stack?