Üretim hatlarındaki anomali tespiti, görüntüde değil sahada başlıyor: kamera açısı, ışık, hat titreşimi ve operatör akışı doğru kurulmadan; en iyi modelin bile çıktısı tutarsız oluyor.
Veri seti ve etiketleme
Hazır veri setleri rastgele dokulu malzemeler için yetersiz kalıyor. Kendi verimizi topladık ve piksel-doğrulukta maskelerle etiketledik. Tutarlı etiketleme, modelden alınan verimden çok daha kritik bir aşama oldu.
Hatta entegrasyon
Modeli eğitmek tek başına yeterli değildi. PLC sinyalleri, IO modülleri, raporlama ve operatör arayüzü; sistemin sahada gerçekten kullanılır olmasını belirleyen detaylar oldu.
- Operatörün hata sınıfını anında görebilmesi
- Gün sonunda otomatik üretim raporu
- Hat durduğunda model güncellemesinin uzaktan dağıtılması
Veri Kalitesi — Modelden Önce
Yapay zekâ projelerinde başarının %80'i model seçimiyle değil, veri kalitesiyle gelir. Etiketleme tutarlılığı, sınıflar arası dengesizlik, eksik örnekler ve sahaya özgü kenar durumlar; modeli yeniden eğitmek zorunda kalmamak için projenin başında çözülmesi gereken sorunlardır. Bir veri seti hazırlanırken her sınıf için minimum 500-1000 örnek hedeflenir; sınıf dengesizliği varsa ya örnek çoğaltma (oversampling) ya da loss fonksiyonunda sınıf ağırlıklandırma uygulanır. Etiketleyici eğitimi de en az veri toplamak kadar kritik — iki farklı etiketleyicinin aynı görüntüye %95+ tutarlılıkla aynı etiketi vermesi gerekir.
Eğitim ve Fine-Tuning Döngüsü
Bir modeli sadece bir kez eğitmek yetmez — sürekli iyileştirme döngüsü kurulmalıdır. AIOR'un kullandığı standart pipeline: ham veri → temizleme → train/val/test split → baseline model → hata analizi → veri seti genişletme → fine-tune → A/B test → production. Bu döngü her 4-6 haftada bir tekrar edilir. Production'da yanlış sınıflandırılan örnekler otomatik olarak yeni eğitim setine eklenir; model haftalık olarak iyileşir. Eğitim için NVIDIA H100 veya A100 GPU'larında batch processing kullanıyoruz; küçük modeller için RTX 4090 yeterli.
Production Deployment ve Guardrails
Bir AI modelini production'a almak; lab ortamında elde edilen %95 doğruluğun sahada %95 olarak korunması anlamına gelmez. Sürpriz girişler (out-of-distribution data), düşmanca örnekler (adversarial examples) ve veri kayması (data drift) gerçek dünyada modelin doğruluğunu zamanla düşürür. Bu nedenle her production deploymentımız üç katmanlı guardrail sistemiyle çalışır: 1) Input validation — beklenmedik formattaki veriyi reddet, 2) Confidence threshold — düşük güvenli tahminleri "belirsiz" olarak işaretle, 3) Human-in-the-loop — kritik kararlar için insan onayı zorunlu kıl.
İzleme ve Sürekli İyileştirme
Production'daki bir modeli izlemeden "çalışıyor mu?" sorusuna cevap veremezsiniz. AIOR olarak Prometheus + Grafana kombinasyonuyla her tahminin latency, confidence, sınıf dağılımı, hata oranı ve son 24 saatlik trendini izliyoruz. Bir metrik beklenmedik şekilde değişirse PagerDuty alarmı tetikleniyor; mühendis ekip 5 dakika içinde haberdar oluyor. Bu izleme sayesinde tipik olarak modelin performans düşüşünü kullanıcılar farketmeden 3-5 gün önce yakalıyoruz.