İçeriğe geç
KAMPANYA Kurumsal Web Paketi — $499'dan başlayan fiyatlar Web & Logo Tasarımı · Kurumsal E-posta · LiteSpeed + CloudLinux · Imunify360 Güvenlik · cPanel Yönetim · 3 Gbps DDoS Koruması 00 Gün 00 Saat 00 Dk 00 Sn
AIOR

Observability with Prometheus, Loki, Tempo, Grafana: building a st

Sektör topluluğu — sorularınız, deneyimleriniz ve duyurularınız için.

Observability with Prometheus, Loki, Tempo, Grafana: building a st

Aior

Administrator
Staff member
Joined
Apr 2, 2023
Messages
895
Reaction score
2
Points
18
Age
40
Location
Turkey
Website
aior.com
1/3
Thread owner

500


Üç sinyal, bir yığın​

Modern observability = metrik + log + trace. Her biri diğerinin söyleyemediği bir şeyi söyler. Prometheus + Loki + Tempo + Grafana ("PLTG") yığını 2026'da açık kaynak varsayılan olarak ortaya çıktı.

Metrikler: Prometheus​

  • Retention gereksiniminiz ne? Yerel Prometheus = varsayılan 15 gün. Uzun-vadeli Thanos veya Mimir gerektirir.
  • Cardinality bütçeniz ne? Yüksek-cardinality label'lar (user_id, request_id) depolamayı patlatır.
  • Pull mu push mu? Prometheus varsayılan olarak pull-based. Kısa ömürlü job'lar için Pushgateway.

Loglar: Loki​

Label'ları indeksler ama log içeriğini değil.
  • Kazandığı yer — küçük label setiyle sorgu, içinde grep. Ölçekte maliyet-etkili.
  • Acıdığı yer — yıllar log boyunca tam metin arama Elasticsearch / Splunk'tan yavaş.

Trace'ler: Tempo​

Servis sınırları arası istek başına gecikme dökümü.
  • Sampling — her trace'i tutmak pahalı. Head sampling miss eder; tail sampling daha faydalı ama işletmek zor.
  • Instrumentation — auto-instrumentation çoğu framework'ü kapsar.
  • Cross-service korelasyon — trace context (W3C Trace Context) yayın.

Dashboard disiplini​

  • Servis başına operasyonel dashboard'lar — RED metrikleri (Rate, Errors, Duration).
  • Özellik başına dashboard'lar.
  • SLO / error budget dashboard'ları.
  • Org düzeyi genel bakışlar.

Her dashboard'un belgelenmiş izleyicisi ve runbook referansı var.

Ekibi yakmayan alerting​

  • Sebeplere değil semptomlara alert. "Kullanıcı gecikmesi SLO'yu aştı" "CPU %80'de" değil.
  • Her alert runbook'a işaret eder.
  • Her alertin sahibi var.
  • Test edilmiş escalation yolları.
  • Üç aylık alert incelemesi.

Observability maliyeti​

  • Aksiyon alınmayan yüksek-cardinality metrikleri sample / drop edin.
  • Üretimden debug-level logları drop edin.
  • Trace'leri tail-sample edin.
  • Storage'ı tier'lendirin.

Yığının değerli yapan cross-link​

Metrik anomalisinden aynı servisin aynı penceresinin loglarına tıklayın. Yavaş trace'ten alttaki loglara tıklayın. Hata log'undan parçası olduğu trace'e tıklayın.

Uyaracağımız bir desen​

Tam yığına bağlanmadan OpenTelemetry'i benimsemek.

PLTG yığınınız nedir?


500


Three signals, one stack​

Modern observability is metrics + logs + traces. The Prometheus + Loki + Tempo + Grafana ("PLTG") stack has emerged as the open-source default in 2026.

Metrics: Prometheus​

  • Retention? Local Prometheus = 15 days default. Long-term needs Thanos or Mimir.
  • Cardinality budget? High-cardinality labels blow up storage.
  • Pull or push? Prometheus is pull-based. Pushgateway for ephemeral jobs.

Logs: Loki​

Indexes labels but not log content.
  • Where it wins — query by small label set and grep within.
  • Where it hurts — full-text search across years is slower than ELK / Splunk.

Traces: Tempo​

Per-request latency breakdowns across service boundaries.
  • Sampling — head sampling misses interesting traces; tail sampling is more useful but harder to operate.
  • Instrumentation — auto-instrumentation covers most frameworks.
  • Cross-service correlation — propagate W3C Trace Context.

The dashboard discipline​

  • Per-service operational dashboards — RED metrics.
  • Per-feature dashboards.
  • SLO / error budget dashboards.
  • Org-level overviews.

Alerting that doesn't burn the team out​

  • Alert on symptoms, not causes.
  • Each alert points to a runbook.
  • Each alert has an owner.
  • Tested escalation paths.
  • Quarterly alert review.

The cost of observability​

  • Sample / drop high-cardinality metrics not actionable.
  • Drop debug-level logs from production.
  • Tail-sample traces.
  • Tier storage.

The cross-link​

From a metric anomaly, click to logs from the same service. From a slow trace, click to underlying logs.

One pattern we'd warn about​

Adopting OpenTelemetry without committing to its full stack.

What's your stack?
 

Forum statistics

Threads
891
Messages
898
Members
27
Latest member
AIORAli

Members online

No members online now.

Featured content

AIOR
AIOR TEKNOLOJİ

Tüm ihtiyaçlarınız için Teklif alın

Hosting · Domain · Sunucu · Tasarım · Yazılım · Mühendislik · Sektörel Çözümler

Teklif al

7/24 Destek · Anında yanıt

Back
Top