Case 1 — PCB muayenesi, 250 iyi numune, anomali yok
Brief: doldurulmuş PCB'leri hat sonunda lehim köprüleri, eksik bileşenler ve tombstone'lar için inceleyin. Müşteride 250 bilinen-iyi kart vardı ve tarihsel arşivde fiili olarak sıfır onaylı kusur vardı (kusurlu kartlar herhangi bir görüntüleme adımı var olmadan önce imha ediliyordu).İlk denediğimiz: 250 iyi kart üzerinde PatchCore. Sentetik olarak bozulmuş test setinde AUROC %96. Müşteriye doğrulamak için gerçek kusurlara ihtiyacımız olduğunu söyledik.
Gerçekten işe yarayan: modeli üç hafta gölge modda çalıştırdık. Operatör o dönemde manuel olarak 47 kartı kusurlu işaretledi. Bunlardan modelimiz 41'ini anomali skorlarının üst %5'inde skorlamıştı. Kaçırdığı 6'sı alt tarafta ince lehim sorunlarıydı — kamera yerleşim problemi, model problemi değil.
Ders: Kamera kapsamı doğruysa, küçük iyi-sadece veri seti üzerinde PatchCore şaşırtıcı derecede yetkin. Darboğaz model değildi. Optik kurulumdu.
Case 2 — Dokulu deri muayenesi, denetimli yaklaşım başarısız
Brief: deri döşeme rulolarını kesikler, izler, böcek ısırıkları ve boya tutarsızlıkları için inceleyin. Müşteride 8.000 etiketli kusurlu görüntü ve 30.000 iyi görüntü vardı.İlk denediğimiz: denetimli sınıflandırıcı (focal loss ile EfficientNet-B3). Holdout'ta %97 doğruluk. Dağıtıldı. 2. haftada model eğitim setinde olmayan bir kusur türünü kaçırmaya başladı: yeni bir tedarikçinin tabaklama sürecinden belirli bir küme deseni.
İşe yarayan: DRAEM'e geçtik. Sentetik bozulmalarla yalnızca iyi numuneler üzerinde eğitildi. Bilinen kusur türlerinde manşet doğrulukta hafif düşüş (%95 vs %97), ama model tedarikçi değişiminden bir hafta içinde yeni kusur türünü yakalamaya başladı.
Ders: denetimli modeller gördükleri kusur türlerini ezberler. Denetimsiz modeller daha önce hiç görmedikleri anomalileri işaretler. Yüksek doğal varyansa sahip malzemeler için denetimsiz daha güvenli bahistir, daha düşük manşet doğrulukta bile.
Case 3 — Skor değil, embedding monitor'ün yakaladığı drift
Brief: kaplanmış metal parçalar üzerinde yüzey kusuru muayenesi. 10 aydır üretimde model, stabil. Reddetme oranı %0.4 civarında stabil.Drift olayı: kamera sürücüsüne bir yazılım güncellemesi gain otomatik ayar davranışını değiştirdi. Ortalama pozlama ~%8 yukarı kaydı. Anomali skoru dağılımı onunla birlikte kaydı. Reddetme oranı üç gün stabil kaldı çünkü eşik skor kvantilinde kendini ayarlıyordu — ama model artık yüzey highlight'larını kusur olarak işaretliyordu.
Nasıl yakaladık: embedding dağılımı monitörü (temele karşı KL divergence) uyarı eşiğini operatör override oranı tırmanmaya başlamadan iki gün önce geçti. Kamera sürücüsünü geri aldık, embedding monitörünü yeniden temellendirdik.
Ders: reddetme oranı tek başına sistemin sağlıklı olduğunu söylemez. Embedding dağılımını izleyin. Operatör override'larını izleyin. Bir şeyin bozulması ile reddetme oranının fark etmesi arasındaki gecikme dakika değil, gündür.
Ortak ip
Bunların hiçbiri model mimarisi problemi değildi. Hepsi sistem problemiydi — kamera kapsamı, eğitim veri kompozisyonu, izleme kör noktaları. Anomali tespit projeleri model seviyesinden çok sistem seviyesinde başarısız olur.Size bir şey öğreten bir deploy'u paylaşmak isteyen var mı? Görüntü olmayan vakaları da merak ediyoruz — titreşim, akustik, akım.
Case 1 — PCB inspection, 250 good samples, no anomalies
The brief: inspect populated PCBs at end-of-line for solder bridges, missing components, and tombstones. Customer had 250 known-good boards and effectively zero confirmed defects in the historical archive (defective boards were destroyed before any imaging step existed).What we tried first: PatchCore on the 250 good boards. AUROC on synthetically perturbed test set was 96 %. We told the customer we needed real defects to validate.
What actually worked: we ran the model in shadow mode for three weeks. The operator manually flagged 47 boards as defective during that period. Of those, our model had scored 41 in the top 5 % of anomaly scores. The 6 it missed were all subtle solder issues on the underside — a camera placement problem, not a model problem.
Lesson: PatchCore on a tiny good-only dataset is shockingly competent if the camera coverage is right. The bottleneck wasn't the model. It was the optical setup.
Case 2 — Textured leather inspection, supervised approach failed
The brief: inspect leather upholstery rolls for cuts, scars, insect bites, and dye inconsistencies. Customer had 8 000 labelled defective images and 30 000 good images.What we tried first: supervised classifier (EfficientNet-B3 with focal loss). 97 % accuracy on the holdout. Deployed. In week 2, the model started missing a defect type that hadn't been in the training set: a particular cluster pattern from a new supplier's tanning process.
What worked: switched to DRAEM. Trained on good samples only, with synthetic perturbations. Slight drop in headline accuracy on known defect types (95 % vs 97 %), but the model started catching the new defect type within a week of the supplier change.
Lesson: supervised models memorise the defect types they saw. Unsupervised models flag anomalies they've never seen. For materials with high natural variance, unsupervised is the safer bet, even at lower headline accuracy.
Case 3 — Drift caught by the embedding monitor, not the score
The brief: surface defect inspection on coated metal parts. Model in production for 10 months, stable. Reject rate stable around 0.4 %.The drift event: a software update to the camera driver changed the gain auto-adjustment behaviour. Mean exposure shifted up by ~8 %. The anomaly score distribution shifted with it. Reject rate stayed stable for three days because the threshold was self-adjusting on the score quantile — but the model was now flagging surface highlights as defects.
How we caught it: embedding-distribution monitor (KL divergence vs baseline) crossed its alert threshold two days before the operator override rate started climbing. Rolled back the camera driver, re-baselined the embedding monitor.
Lesson: reject rate alone doesn't tell you the system is healthy. Watch the embedding distribution. Watch operator overrides. The lag between something breaking and reject rate noticing is days, not minutes.
Common thread
None of these were model-architecture problems. They were systems problems — camera coverage, training data composition, monitoring blind spots. Anomaly detection projects fail at the system level far more often than at the model level.Anyone willing to share a deployment that taught them something? Curious about non-image cases too — vibration, acoustic, current.