Data Annotation Discipline in AI Projects — AIOR Technology Limited Company

Etiketleme rehberi, etiketleyici eğitimi, kalite kontrol turları — model performansından çok daha kalıcı bir iz bırakıyor.

Tutarsız etiketleme, modeli sürekli yeniden eğitmeye iter ve sahadaki güveni aşındırır. Disiplin, modelden önce ekibin üzerinde çalıştığı bir konu olmalı.

Veri Kalitesi — Modelden Önce

Yapay zekâ projelerinde başarının %80'i model seçimiyle değil, veri kalitesiyle gelir. Etiketleme tutarlılığı, sınıflar arası dengesizlik, eksik örnekler ve sahaya özgü kenar durumlar; modeli yeniden eğitmek zorunda kalmamak için projenin başında çözülmesi gereken sorunlardır. Bir veri seti hazırlanırken her sınıf için minimum 500-1000 örnek hedeflenir; sınıf dengesizliği varsa ya örnek çoğaltma (oversampling) ya da loss fonksiyonunda sınıf ağırlıklandırma uygulanır. Etiketleyici eğitimi de en az veri toplamak kadar kritik — iki farklı etiketleyicinin aynı görüntüye %95+ tutarlılıkla aynı etiketi vermesi gerekir.

Eğitim ve Fine-Tuning Döngüsü

Bir modeli sadece bir kez eğitmek yetmez — sürekli iyileştirme döngüsü kurulmalıdır. AIOR'un kullandığı standart pipeline: ham veri → temizleme → train/val/test split → baseline model → hata analizi → veri seti genişletme → fine-tune → A/B test → production. Bu döngü her 4-6 haftada bir tekrar edilir. Production'da yanlış sınıflandırılan örnekler otomatik olarak yeni eğitim setine eklenir; model haftalık olarak iyileşir. Eğitim için NVIDIA H100 veya A100 GPU'larında batch processing kullanıyoruz; küçük modeller için RTX 4090 yeterli.

Production Deployment ve Guardrails

Bir AI modelini production'a almak; lab ortamında elde edilen %95 doğruluğun sahada %95 olarak korunması anlamına gelmez. Sürpriz girişler (out-of-distribution data), düşmanca örnekler (adversarial examples) ve veri kayması (data drift) gerçek dünyada modelin doğruluğunu zamanla düşürür. Bu nedenle her production deploymentımız üç katmanlı guardrail sistemiyle çalışır: 1) Input validation — beklenmedik formattaki veriyi reddet, 2) Confidence threshold — düşük güvenli tahminleri "belirsiz" olarak işaretle, 3) Human-in-the-loop — kritik kararlar için insan onayı zorunlu kıl.

İzleme ve Sürekli İyileştirme

Production'daki bir modeli izlemeden "çalışıyor mu?" sorusuna cevap veremezsiniz. AIOR olarak Prometheus + Grafana kombinasyonuyla her tahminin latency, confidence, sınıf dağılımı, hata oranı ve son 24 saatlik trendini izliyoruz. Bir metrik beklenmedik şekilde değişirse PagerDuty alarmı tetikleniyor; mühendis ekip 5 dakika içinde haberdar oluyor. Bu izleme sayesinde tipik olarak modelin performans düşüşünü kullanıcılar farketmeden 3-5 gün önce yakalıyoruz.

#dataset#annotation#ml-ops