Bir yıl hayatta kalan LLM uygulamasının şekli
Gönderilen, kullanılan ve bir yıl sonra hâlâ çalışan çok spesifik bir LLM uygulaması türü vardır — modelin sistem değil, sistemde bir bileşen olduğu olan. Aşağıda bu sonucu tutarlı şekilde üreten desenler.RAG: ne zaman doğru ve ne zaman değil
"Belgelerim hakkında soruları yanıtlamak için LLM kullan" için varsayılan mimari. Temeller:- Külliyatı alınabilir birimlere ayırın.
- Parçaları embed edin; vector veritabanında saklayın.
- Bir sorguda, sorguyu embed edin, top-k parça alın.
- Sorgu + alınan bağlamı LLM'e geçirin, atıflarla yanıtlamasını isteyin.
İşe yaradığı yer: tanımlı külliyat üzerinde olgusal Q&A.
İşe yaramadığı yer:
- Birçok parça arası sentez gerektiren görevler.
- Külliyat yapısı hakkında akıl yürütme gerektiren görevler.
- Kullanıcı sorgusunun belgelerle leksikal olarak eşleşmediği durumlar.
Hafifletmeler: hibrit retrieval (leksikal + semantic), reranking, sorgu yeniden yazma, hiyerarşik / graph tabanlı RAG.
Tool use daha dayanıklı desen
Modelin tool'ları (fonksiyonları) çağırmasına izin vermek giderek daha çok dayanan mimaridir. Model orkestrasyon katmanı olur; tool'lar gerçek işi yapar.Desen:
- Küçük, iyi-adlandırılmış tool seti tanımlayın — search, fetch, compute, write.
- Her tool'un sıkı giriş şeması ve yapılandırılmış çıktısı vardır.
- Model toolset verilir ve ilgili olduğunda kullanması söylenir.
- Uygulama tool çağrılarını doğrular ve yürütür; sonuçlar modele geri gider.
Tool use sadece-RAG mimarilerinden model yükseltmelerini daha iyi atlatır.
Agent'lar — dikkatli versiyon
Çok adımlı agent'lar (model plan yapar, yürütür, değerlendirir, yeniden plan yapar) yanlış otonomi maliyetinin sınırlı olduğu dar alanlar için faydalı:- Test geri bildirimli kod üretimi (kod yaz, test çalıştır, başarısızlıkları düzelt).
- Iteratif sorgularla veri analizi.
- Müşteri destek triyajı.
Başarısız oldukları yer:
- İyi ara sinyaller olmadan uzun ufuk görevler.
- Her adımın geri alınamaz yan etkileri olduğu görevler.
- Kullanıcının determinizm beklediği görevler.
Moat — gerçekten savunulabilir olan
Model moat'ınız değil. Model herkes için aynı anda yükseltilir. Savunulabilir olan:- Tescilli veri ve onu kullanma hakkı — külliyat ve hak yapısı.
- Domain-spesifik değerlendirme — domain'inizde güvenle göndermenize izin veren eval seti.
- İş akışı entegrasyonu — kullanıcının mevcut araçları, süreçleri, deployları.
- Güven ve hesap verebilirlik — model yanlışken sorumluluk alan şirket olmak.
- Kurumsal sınıf altyapı — auth, audit, uyumluluk, multi-tenancy.
"En iyi prompt'umuz var" üzerinden rekabet eden LLM uygulaması, aynı prompt'a ve daha iyi işe sahip birine sonraki çeyrekte kaybedendir.
Maliyet konuşması
LLM maliyetleri gerçek ve kullanımla ölçeklenir:- Agresif cache — aynı sorgu, aynı yanıt, API çağrısı yok.
- Modeli doğru boyutlandır — daha ucuz modelin ele aldığı görevler için en güçlü modeli kullanmayın.
- Bağlam penceresini sınırlandırın.
- Kullanıcının beklediği yerde stream; beklemediği yerde batch.
- Özellik başına harcamayı takip et.
Uyaracağımız bir desen
"Her şeyi LLM'e sar" cazibesi. Deterministik bir algoritma işi yapabilirse, onu kullanın.Her zaman karşılığını veren bir desen
Her üretim çağrısı için tam konuşmayı loglamak (giriş, ara adımlar, çıktı, model sürümü, gecikme, maliyet).LLM yığınınız nedir?
The shape of an LLM application that survives a year
There's a very specific kind of LLM application that ships, gets used, and is still running a year later — the one where the model is a component in a system, not the system itself.RAG: when it's right and when it isn't
The default architecture for "use the LLM to answer questions about my documents":- Chunk the corpus into retrievable units.
- Embed the chunks; store in a vector database.
- On a query, embed the query, retrieve top-k chunks.
- Pass query + retrieved context to the LLM.
Where it works: factual Q&A over a defined corpus.
Where it doesn't:
- Tasks requiring synthesis across many chunks.
- Tasks where the answer requires reasoning about the corpus structure.
- Cases where the user's query doesn't lexically match the documents.
Tool use is the more durable pattern
Letting the model call tools (functions) is increasingly the architecture that holds up.The pattern:
- Define a small, well-named set of tools.
- Each tool has a strict input schema and a structured output.
- The model is given the toolset.
- The application validates and executes the tool calls.
Tool use survives model upgrades better than RAG-only architectures.
Agents — the careful version
Multi-step agents are useful for narrow domains:- Code generation with test feedback.
- Data analysis with iterative queries.
- Customer support triage.
Where they fail:
- Long-horizon tasks without good intermediate signals.
- Tasks where every step has irreversible side effects.
- Tasks where the user expects determinism.
The moat — what's actually defensible
The model is not your moat. What is defensible:- Proprietary data and the right to use it.
- Domain-specific evaluation.
- Workflow integration.
- Trust and accountability.
- Enterprise-grade plumbing.
The cost conversation
- Cache aggressively.
- Right-size the model.
- Limit the context window.
- Stream where the user is waiting; batch where they're not.
- Track per-feature spend.
One pattern we'd warn about
The "wrap everything in an LLM" temptation.One pattern that always pays off
Logging the full conversation for every production call.What's your LLM stack?