§ 01 — TL;DR30 saniyede özet

  • Difüzyon-tabanlı süper-çözünürlük (diffusion-based super-resolution), düşük kaliteli bir kareyi yeniden örnekleyerek değil, koşullu olarak üreterek büyütür: çıktıdaki keskin doku ve kenarlar geri-kazanılmış sinyal değil, önselden (prior) hayal edilmiş en olası tahmindir.
  • Bu ailenin ölçek ucundaki temsilcisi SUPIR, büyük bir önceden-eğitilmiş metin-görüntü difüzyon önselini dramatik biçimde ölçekleyip 20 milyon yüksek-çözünürlüklü, metin-açıklamalı görüntüyle eğitiyor; restorasyonu metin komutuyla (prompt) yönlendirebiliyor[1].
  • Pratik faydanın kalbinde bir teorik sınır var: algı–bozulma ödünleşimi (perception–distortion tradeoff). Belirli bir bozulma seviyesinin altında algısal "güzelliği" artırmanın tek yolu, referansa olan piksel sadakatini düşürmektir[5]. Yani difüzyon SR gözle kazanırken ölçümle ödün verir.
  • Bedeli üç eksende somut: (i) var olmayan detayı makul biçimde üretme — halüsinasyon; (ii) kare-kare titreşim (temporal flicker); (iii) çok-adımlı örnekleme + milyarlarca-parametreli omurganın getirdiği ağır gecikme. SUPIR bunları negatif-kalite komutları ve restorasyon-rehberli örnekleme ile dizginliyor ama yapısal olarak ortadan kaldıramıyor[1].
  • 3Y için anlamı: düşük kaliteli CCTV/footfall karesinde difüzyon SR'ı yalnızca gösterim ve alt-akış metriğiyle kanıtlanmış özellik beslemesi için kullanmak güvenlidir; tanıma ve kanıt (yüz/plaka, adli eşleştirme) için tehlikelidir — çünkü üretilen her piksel, aksi kanıtlanana kadar bir tahmindir.

§ 02 — Problem"Daha güzel kare" ile "daha doğru kare" aynı şey mi?

Süper-çözünürlük (super-resolution, SR), düşük kaliteli bir gözlemden yüksek kaliteli sahneyi kestirme problemidir. Bu sayfalarda restorasyon ailesinin farklı kollarını — tek talimatla yönlendirilen hepsi-bir-arada restorasyonu (InstructIR), frekans-alanı dikkatiyle bulanıklık gidermeyi (LoFormer) — daha önce incelemiştik. Bu yazının odağı bir mimari değil, bir paradigma ve onun pratik faydasına dair eleştirel bir soru: difüzyon-tabanlı SR'ın ürettiği nefes kesici kareler, bir mühendislik hattında gerçekten işe yarar mı, yoksa yalnızca güzel mi görünür?

Önce klasik kurgunun neden çöktüğünü hatırlayalım. Geleneksel SR literatürü uzun süre bilinen bir bozulma modeliyle çalıştı: yüksek-çözünürlüklü bir görüntüyü bicubic ile küçültüp eğitim çifti üret, sonra bu sentetik bozulmayı tersine çevirmeyi öğren. Gerçek dünyada böyle bir lüks yok. Bir AVM girişine bakan bir IP kameranın karesi aynı anda birçok bozulmadan muzdariptir: sensör gürültüsü, JPEG/H.264 sıkıştırma blokları, hareket bulanıklığı, düşük ışık, odak kayması, yeniden ölçeklenmiş düşük çözünürlük. Bozulma çekirdeği (degradation kernel) ne bilinir ne de sabittir; literatür buna kör restorasyon (blind restoration) der.

Gerçek bir bozulmayı, birden çok operatörün bileşkesi olarak yazabiliriz: yüksek kaliteli sahne xx, bir bulanıklaştırma çekirdeği kk ile evrişir, ss kat alt-örneklenir, gürültü nn eklenir ve bir sıkıştırma operatörü C\mathcal{C} uygulanır. Gözlenen düşük kaliteli kare kabaca şudur:

xLQ=C((xk) ⁣s+n)x_{\text{LQ}} = \mathcal{C}\bigl((x \ast k)\!\downarrow_s + n\bigr)

Kör restorasyonun zorluğu, kk, ss, nn ve C\mathcal{C} parametrelerinin bilinmemesi ve karelere göre değişmesidir; üstelik C\mathcal{C} (JPEG/H.264) kayıplı ve geri-çevrilemezdir. Bu yüzden problem matematiksel olarak kötü-konumlanmıştır (ill-posed): aynı xLQx_{\text{LQ}}'yu üreten sonsuz sayıda makul xx vardır. 8 piksel genişliğindeki bir plaka karakteri ya da 20 piksellik bir yüz, geri getirilecek bir "sinyal" değil, yeniden kurulması gereken bir tahmindir.

Çözümü tekleştiren tek şey önseldir (prior) — "doğal görüntüler nasıl görünür" bilgisi. İşte difüzyon SR'ın tezi tam burada: eğer önsel yeterince büyük ve zenginse — internet ölçeğinde eğitilmiş, milyarlarca parametreli bir üretici difüzyon modeli — restorasyon "bilgiyi geri kazanmak" yerine "girdiyle tutarlı kalarak en olası yüksek-kaliteli sahneyi hayal etmek" problemine dönüşür[1]. Olasılıksal terimlerle bu, sonsal olasılığı en büyükleyen kestirimdir:

x^=argmaxxp(xxLQ)    p(xLQx)veri-uyum    p(x)o¨nsel\hat{x} = \arg\max_{x} \, p(x \mid x_{\text{LQ}}) \;\propto\; \underbrace{p(x_{\text{LQ}} \mid x)}_{\text{veri-uyum}} \;\cdot\; \underbrace{p(x)}_{\text{önsel}}

Difüzyon önseli p(x)p(x) terimini taşır; girdiye bağlama mekanizması ise veri-uyum terimi p(xLQx)p(x_{\text{LQ}} \mid x)'i. Bu güçlü bir fikir. Ama mühendislik açısından kritik soru şudur: bu "hayal" girdiye ne kadar bağlı kalır — yani önsel terimi veri-uyum terimini ne zaman ezer? Önsel ezdiği anda çıktı "daha güzel" ama "daha az doğru" hâle gelir. Bir footfall hattında istediğimiz şey gözle güzel bir kare değil, alt-akış tespit/sayım modeline sadık bir girdidir; ve bu iki hedef — algısal güzellik ile sadakat — difüzyon SR'da çoğu zaman aynı yönü göstermez. Üstelik bunun ardında tesadüf değil, ispatlanmış bir teorik sınır vardır.

§ 03 — YöntemDifüzyon önseli + bağlama + dil rehberliği (örnek: SUPIR)

Difüzyon-tabanlı SR'ı somutlaştırmak için ölçek ucundaki örneği — SUPIR'i (Scaling-UP Image Restoration) — referans alalım. SUPIR'in merkezî kaldıracı, adından da anlaşılacağı gibi model ölçeğidir: büyük, önceden-eğitilmiş bir metin-görüntü difüzyon önselini alıp restorasyon kapasitesini artıracak biçimde dramatik olarak ölçekler[1]. Yöntemi üç parça hâlinde okumak en temizidir; ve burada gösterdiğimiz formüller, makaleden birebir alıntı değil, difüzyon SR'ın üzerine inşa edildiği mekanizmayı görselleştiren temsilî denklemlerdir.

1) Üretici difüzyon önseli ve ölçek. Üretici bir difüzyon modeli, gürültüden başlayıp adım adım temiz görüntüye yakınsayan ters difüzyon sürecini öğrenir[3]; pratikte bu, hesabı piksel uzayı yerine sıkıştırılmış bir gizil uzayda yapan gizil-difüzyon (latent diffusion) omurgaları üzerinde kurulur[2]. İleri süreç, temiz görüntü x0x_0'a kademeli Gauss gürültüsü ekler:

xt=αˉtx0+1αˉtϵ,ϵN(0,I)x_t = \sqrt{\bar\alpha_t}\, x_0 + \sqrt{1-\bar\alpha_t}\,\epsilon, \qquad \epsilon \sim \mathcal{N}(0, I)

Burada αˉt=s=1tαs\bar\alpha_t = \prod_{s=1}^{t}\alpha_s gürültü çizelgesini, tt ise difüzyon adımını verir. Ağ ϵθ\epsilon_\theta, her adımda eklenen gürültüyü kestirmeyi öğrenir; eğitimin temel hedefi gizil-uzay difüzyon yitimidir (latent-diffusion denoising objective):

L=Ex0,t,ϵ ⁣[ϵϵθ(xt,t,c)22]\mathcal{L} = \mathbb{E}_{x_0,\, t,\, \epsilon}\!\left[\,\bigl\lVert \epsilon - \epsilon_\theta(x_t,\, t,\, c)\bigr\rVert_2^2\,\right]

SUPIR'in ayırt edici hamlesi bu önseli ölçeklemektir — hem omurganın kapasitesini büyüterek hem de 20 milyon yüksek-çözünürlüklü, betimleyici metin açıklamalı görüntüden oluşan devasa bir veri kümesiyle eğiterek[1]. Buradaki mühendislik sezgisi nettir: önsel ne kadar zengin ve geniş kapsamlıysa, kör restorasyonda "en olası sahne" kestirimi o kadar inandırıcı olur. Ölçek, bu yaklaşımın hem gücünün hem maliyetinin kaynağıdır.

2) Girdiye bağlama (koşullama). Düşük kaliteli (LQ) girdiyi bu üretici sürece bağlamak için, büyük difüzyon gövdesi tipik olarak dondurulur ve yanına bir bağlama mekanizması (adaptör) eklenir — bu, ControlNet ailesinin felsefesidir: büyük üreticiyi koru, kontrolü kenara as. LQ görüntüden çıkarılan özellikler FLQF_{\text{LQ}}, difüzyon ağına koşul olarak enjekte edilir; restorasyon yitimi, koşullu gürültü kestiriminin beklenen karesel hatasıdır:

Lrestore=Ex0,t,ϵ ⁣[ϵϵθ(xt,t,c,FLQ)22]\mathcal{L}_{\text{restore}} = \mathbb{E}_{x_0,\, t,\, \epsilon}\!\left[\,\bigl\lVert \epsilon - \epsilon_\theta(x_t,\, t,\, c,\, F_{\text{LQ}})\bigr\rVert_2^2\,\right]

Adaptörün işi naziktir: üreticinin yaratıcılığını dizginlemek ama tamamen boğmamak. Çok zayıf koşullama girdiye sadakatsiz uydurmaya, çok sert koşullama ise GAN tabanlı restoratörlerin "plastik" çıktısına geri dönüşe yol açar. Bu denge, difüzyon SR'ın merkezî tasarım gerilimidir.

3) Çok-kipli dil rehberliği ve negatif-kalite komutları. SUPIR, 20M görüntü–metin çiftiyle eğitildiği için restorasyonu bir metin istemiyle yönlendirebilir; bu, yöntemin "yeni bir yetenek" olarak öne çıkardığı özelliktir[1]. Anahtar mühendislik hilesi negatif-kalite komutlarıdır (negative-quality prompts): pozitif komut cposc_{pos} ("keskin, yüksek çözünürlüklü fotoğraf") ile negatif komut cnegc_{neg} ("bulanık, gürültülü, JPEG artefaktı") arasında sınıflandırıcısız rehberlik (classifier-free guidance, CFG)[4] uygulanır:

ϵ^θ(xt,cpos,cneg)=ϵθ(xt,cneg)+w[ϵθ(xt,cpos)ϵθ(xt,cneg)]\hat\epsilon_\theta(x_t, c_{pos}, c_{neg}) = \epsilon_\theta(x_t, c_{neg}) + w\,\bigl[\epsilon_\theta(x_t, c_{pos}) - \epsilon_\theta(x_t, c_{neg})\bigr]

ww rehberlik ağırlığıdır; örnekleyiciyi "kalitesiz" yönden uzaklaştırıp "kaliteli" yöne iter — algısal kaliteyi yükselten ucuz ama etkili bir kol. Son olarak restorasyon-rehberli örnekleme (restoration-guided sampling), difüzyon-tabanlı restorasyonu sık vuran sadakat sorununu (girdiden kayma) bastırmak için tasarlanmış, örnekleme-zamanı bir tekniktir. Konsept olarak bu, ters-difüzyon güncellemesine bir veri-tutarlılık (data-consistency) gradyan terimi ekler:

xt1=μθ(xt,t,c)sxtLfidelity(xt,yLQ)+σtzx_{t-1} = \mu_\theta(x_t, t, c) - s\,\nabla_{x_t}\mathcal{L}_{\text{fidelity}}(x_t, y_{\text{LQ}}) + \sigma_t z

Burada μθ\mu_\theta ortalama kestirim, ss rehberlik adımı, σtz\sigma_t z örnekleme gürültüsüdür. Bu terim halüsinasyonu yok etmez — yalnızca üretilen detayın girdiden çok uzaklaşmasını sınırlar.

Difüzyon-tabanlı süper-çözünürlük özünde bir geri-kazanım değil, koşullu üretimdir: girdiyi bir kısıt olarak alıp, o kısıta uyan en olası yüksek-kaliteli sahneyi örnekler. Bu cümle, yöntemin hem gücünün hem riskinin tek satırlık özetidir.

ŞEKİL · Difüzyon-tabanlı restorasyon (SUPIR)
GİRDİ & KODLAMA DİFÜZYON ÇEKİRDEĞİ LQ kare (düşük kalite girdi) görüntü kodlayıcı F_LQ koşullama gizili dondurulmuş difüzyon önseli adaptör / koşullama CFG koşulları c_pos , c_neg CFG-rehberli ters difüzyon ÖRNEKLEME-ZAMANI SADAKAT restorasyon-rehberli örnekleme veri-tutarlılık geri-çekme her adım HQ çıktı restore edilmiş
Şekil 1. Düşük kaliteli kare bir görüntü kodlayıcıyla F_LQ gizil koşullamasına dönüşür; dondurulmuş difüzyon önseli ile adaptör ⊕ ile birleşip CFG-rehberli ters difüzyonu sürer, her adımda veri-tutarlılık geri-çekmeli restorasyon-rehberli örnekleme sadakati korur ve yüksek kaliteli çıktıyı üretir. Makaledeki mimariden uyarlanarak yeniden çizilmiştir.

Bu üç parça birlikte, difüzyon SR'ın neden bu kadar etkileyici göründüğünü açıklar: ölçeklenmiş önsel inandırıcı doku üretir, dil rehberliği içerik düzeyinde yön verir, sadakat rehberliği girdiye demir atar. Ama aynı üç parça, yapının kırılganlığını da açıklar — çünkü "inandırıcı doku" ile "doğru doku" arasındaki açık, bir sonraki bölümün konusudur.

§ 04 — BulgularAlgı–sadakat ödünleşimi: kazanılan ve ödenen

Önce dürüst bir uyarı: SUPIR'in arXiv özet sayfasında somut olarak bildirilen tek sayı, 20 milyonluk eğitim veri kümesidir[1]. Karşılaştırmalı kıyaslama metrikleri (PSNR/SSIM/LPIPS/FID veya MANIQA/MUSIQ/CLIP-IQA değerleri), kıyas veri kümesi adları ve rakip yöntemlere (Real-ESRGAN, StableSR, DiffBIR vb.) karşı sayısal üstünlük rakamları özet sayfasında yer almaz; bunlar tam metinde yaşar ve burada uydurulmamalıdır. Dolayısıyla bu bölümün sayısal omurgası, difüzyon SR'ın bağlı olduğu ispatlanmış teorik olgu — algı–bozulma ödünleşimi — üzerine kuruludur; yöntem-bazlı konumlandırmalar ise bu olgunun yarattığı eğilimi gösteren göreli/temsilî göstergelerdir, mutlak benchmark skoru değil.

Algı–bozulma ödünleşimi (perception–distortion tradeoff), Blau ve Michaeli'nin ortaya koyduğu temel bir sonuçtur[5]: bir restorasyon çıktısının "gerçek fotoğraf gibi görünme" olasılığı (algı) ile referansa olan ortalama bozulması (sadakat) arasında, belirli bir eşiğin altında zorunlu bir gerilim vardır. Sezgisel olarak, çıktı dağılımı px^p_{\hat{x}} ile gerçek görüntü dağılımı pxp_x arasındaki mesafe küçüldükçe (yani çıktı daha "gerçek" göründükçe), referansa olan beklenen bozulma Ex^x\mathbb{E}\lVert\hat{x}-x\rVert artmak zorundadır:

P(D)=minpx^  d(px,px^)o¨yle kiEx^xDP^*(D) = \min_{p_{\hat{x}}} \; d\bigl(p_x,\, p_{\hat{x}}\bigr) \quad \text{öyle ki} \quad \mathbb{E}\,\lVert \hat{x} - x \rVert \le D

Burada P(D)P^*(D) fonksiyonu, izin verilen bozulma bütçesi DD verildiğinde ulaşılabilecek en iyi algısal kaliteyi (en küçük dağılım mesafesini) verir ve bu eğri monoton azalandır: bozulma bütçesini sıktıkça (küçük DD) algısal kalite kötüleşir; algısal kaliteyi zorladıkça bozulma artar. Difüzyon SR, tasarımı gereği bu eğrinin algısal ucunda konumlanır — bu yüzden gözle nefes kesici, ölçümle tartışmalıdır. GAN tabanlı yöntemler (örn. Real-ESRGAN[6]) ortada bir yerde, klasik/regresyon-tabanlı yöntemler ise sadakat ucunda durur.

Aşağıdaki tablo, restorasyon ailesinin mühendislik okumasını eksen eksen özetler. Algısal sütunda yön "yüksek = iyi"; sadakat sütununda da "yüksek = iyi" ama üretici-önsel ailesinde göreli olarak düşüktür. Bu, bir kusur değil, ödünleşimin beklenen tezahürüdür.

Yöntem ailesi Önsel ölçeği Algısal kalite (göreli) Piksel sadakati (göreli) Halüsinasyon riski Dil ile kontrol Üretim maliyeti
Bicubic / klasik yok çok düşük en yüksek yok yok çok düşük
GAN (Real-ESRGAN sınıfı) küçük orta orta-yüksek orta yok düşük
Difüzyon (orta ölçek) orta yüksek orta yüksek sınırlı yüksek
Difüzyon + dev önsel (SUPIR örneği) çok büyük en yüksek orta en yüksek güçlü (negatif komut) çok yüksek

Tablonun okunma biçimi mühendislik açısından nettir: ölçeklenmiş difüzyon SR, algısal eksenin tepesini ele geçirir ve dil-kontrolü sütununda yalnız kalır; karşılığında sadakat, halüsinasyon ve maliyet sütunlarında en muhafazakâr çözümlerin gerisinde kalır. "En iyi model" diye bir şey yoktur; yalnızca hangi sütunu önemsediğinize bağlı bir seçim vardır. CCTV/footfall için önemsediğimiz sütun sadakat ve halüsinasyon güvenliğidir, salt algısal güzellik değil — ve tablo, difüzyon SR'ın tam da bu sütunlarda zayıf olduğunu gösterir.

Algı–sadakat ödünleşimi (göreli konum; difüzyon SR algı ucunda)
0 50 100 göreli skor Klasik 18 95 GAN 60 74 Difüzyon 82 58 Dev önsel 94 54 algı ↑ sadakat ↓ Algısal kalite (referanssız) Piksel sadakati (PSNR/SSIM)
Grafik 1. Yöntem ailelerinin algı–sadakat düzlemindeki göreli konumu. Değerler, algı–bozulma ödünleşiminin (Blau & Michaeli, CVPR 2018) öngördüğü eğilimi yansıtan normalize göstergelerdir (0–100); mutlak metrik skoru değildir. Amaç, önsel ölçeği büyüdükçe algı ekseninin yükselip sadakat ekseninin düşmesini görselleştirmektir — difüzyon SR'ın gözle kazanıp ölçümle ödün verdiği yer.

Bu ödünleşimin footfall hattındaki pratik karşılığı, hafife alınmaması gereken bir paradokstur. Alt-akış sayım ve demografi modeli, eğitildiği veri dağılımına göre kalibre olmuştur. Difüzyon SR çıktısı "daha güzel" olsa da, ürettiği doku ve kenarlar gerçek kamera istatistiğinden saparsa, alt-akış modeli için bu bir dağılım kaymasıdır (distribution shift): algısal olarak iyileştirilmiş bir kare, paradoksal biçimde tespit modelinin daha kötü performans vermesine yol açabilir — çünkü model gerçek bulanık karelerle değil, üretici-detaylı karelerle hiç eğitilmemiştir. Bu, "iyi görünen girdi = iyi sonuç" sezgisinin neden tehlikeli olduğunun göstergesidir ve difüzyon SR'ı özellik beslemesinde kullanmadan önce alt-akış metriğiyle doğrulamayı zorunlu kılar. Alternatif bir yol, SR'ı girdiye uydurmak yerine alt-akış modeli SR'lı ve SR'sız karelerin karışımıyla yeniden eğiterek dağılımı genişletmektir; ama bu, ayrı bir Ar-Ge maliyeti demektir.

§ 05 — Sınırlar/TartışmaHalüsinasyon ne zaman özellik, ne zaman hata?

Difüzyon SR'ın en dürüst ifadesi şudur: model, var olmayan detayı makul biçimde uydurur (hallucination). Bu davranışın iyi mi kötü mü olduğu tamamen çıktının kaderine bağlıdır — ve bu, yazının merkezî tezidir. SUPIR'in negatif-kalite komutları ve restorasyon-rehberli örnekleme gibi mekanizmaları bu kaymayı dizginler[1], ama yapısal olarak ortadan kaldıramaz; çünkü problem tanımı gereği eksik bilgiyi doldurmaktır.

  • Halüsinasyonun yönelimi metinle değiştirilebilir — ki bu tanımada zehirdir. Komuta "araç plakası" yazmak, modeli plaka tipografisine doğru iter; yani önyargı çıktıya kasıtlı enjekte edilir. Bir AVM kamerasından alınmış bulanık bir yüzü "iyileştirmek", aslında o yüzü önselin en olası yüzüne doğru kaydırmak demektir — gerçek kişiye değil. Tanıma ve kanıt bağlamında bu, sonucun güvenilirliğini kökten zedeler.

  • Dağılım dışı içerik (out-of-distribution). Büyük difüzyon önselleri doğal görüntülerle eğitildi. CCTV'nin kendine özgü imzası — IR-aydınlatma yapaylıkları, aşırı sıkıştırma blokları, sensöre özgü gürültü, tepeden-eğik açı — bu doğal-görüntü dağılımından sapar. Önsel ne kadar büyük olursa olsun, eğitim dağılımında zayıf temsil edilen bir görünüm için ürettiği doku daha az güvenilirdir.

  • Video tutarlılığı (temporal flicker). Kare kare uygulandığında, her karede farklı bir örnekleme yapıldığı için üretilen detaylar kareler arası titreşir. Difüzyon SR doğası gereği zamansal olarak tutarsızdır; oysa footfall hattının takip (tracking) ve yeniden-kimliklendirme (re-ID) bileşenleri tam da kareler-arası tutarlılığa dayanır. Titreşen doku, kimlik kaymasını (ID switch) tetikleyebilir.

  • Maliyet ve gecikme. Çok-adımlı örnekleme + milyarlarca-parametreli omurga, tek kare için saniyeler mertebesinde GPU süresi demektir; bu, 25 fps'lik bir akışta gerçek-zamanlı işleme için iki-üç kat büyüklük fazladır. Difüzyon SR ya çevrimdışı/asenkron çalışır ya da az-adımlı (few-step) distile bir varyantla yeniden ölçülmelidir.

  • Sentetik vs. gerçek bozulma boşluğu. Eğitimdeki bozulma boru hattı ne kadar zengin olsa da, gerçek bir kameranın sensör/sıkıştırma imzası farklıdır; literatürdeki algısal üstünlük her zaman saha üstünlüğüne çevrilmez. Bu yüzden her difüzyon SR dağıtımı, bir pilot ölçümle doğrulanmalıdır.

Bu sınırların ortak teması şudur: difüzyon SR'ın gücü (zengin önselden inandırıcı detay üretmek) ile riski (var olmayan detayı inandırıcı biçimde uydurmak) aynı madalyonun iki yüzüdür. Bu yüzden "halüsinasyon iyi mi kötü mü?" sorusu yanlış sorulmuştur; doğru soru, "bu çıktı nereye gidiyor?" sorusudur. Gösterime gidiyorsa halüsinasyon bir özelliktir; karara veya kanıta gidiyorsa bir hatadır. Bir sonraki bölüm, bu ayrımı 3Y hattında operasyonel bir kurala çevirir.

§ 06 — 3Y için anlamıDifüzyon SR'ı doğru kutuya koymak

3Y'nin perakende footfall ve demografi hattındaki temel zincir tanıdıktır: kamera → kare → tespit (detection) → takip (tracking) → yeniden-kimliklendirme (re-ID) → sayım/demografi çıkarımı. Bu zincirin doğruluğu girdinin kalitesine duyarlıdır; düşük ışıkta veya uzaktan, yüz/silüet çözünürlüğü düştükçe demografi modelinin güveni çöker. Difüzyon SR burada cazip bir ön-işleme (pre-processing) adayı gibi görünür: ağır bozulmuş bir kareyi foto-gerçekçi biçimde zenginleştirip alt-akış modeline daha okunaklı bir girdi vermek. Ama "pratik faydası gerçek mi?" sorusunun cevabı, hattaki yere bağlıdır.

Doğru soruyu sormak gerekir: çıktının kaderi gösterim mi, özellik beslemesi mi, yoksa kanıt mı?

  • Gösterim (operatör paneli, pazarlama görseli, ısı haritası altlığı, denetim kayıt önizlemesi): tolerans yüksektir; halüsinasyon kabul edilebilir. Difüzyon SR — SUPIR dâhil — burada rahatça kullanılabilir, çünkü amaç insan gözüne okunaklı bir kare sunmaktır, bir karar üretmek değil.
  • Özellik beslemesi (sayım/demografi/re-ID modeline girdi): yalnızca SR'ın alt-akış metriğini — tespit mAP'si, sayım hata oranı, ID-switch sıklığı, demografi doğruluğu — istatistiksel olarak anlamlı biçimde iyileştirdiğini kanıtladıktan sonra. Referanssız "güzellik" skoruna değil; "SR'lı" ve "ham" iki kolu etiketli bir saha kümesinde yan yana koşturup sayım hatasına bakmaya. § 04'te tartıştığımız dağılım-kayması paradoksu nedeniyle, güzel görünen çıktı tespit doğruluğunu düşürebilir; bu yüzden bu kapı varsayılan olarak kapalıdır ve ancak kanıtla açılır.
  • Kanıt (yüz/plaka tanıma, adli yüz eşleştirme, kimlik): difüzyon SR kullanılmamalıdır. Üretilen her piksel, aksi kanıtlanana kadar bir tahmindir; üstelik § 05'te gösterdiğimiz gibi, çıktı metin/önsel önyargısıyla gerçek kişiye değil en olası kişiye doğru kaydırılır. Bulanık bir plakayı "okunur" hâle getiren bir model, kanıt değil hipotez üretir; mahkemeler "AI ile iyileştirilmiş" kanıta haklı bir şüpheyle yaklaşır.

Pratik mimari önerimiz somuttur. Difüzyon SR'ı — ağır profili nedeniyle — hattın kenarına (edge) değil, bulut tarafına ve seçici bir tetikleyiciyle koymak gerekir: yalnızca kalite eşiğinin altına düşen karelerde, toplu (batch) ve düşük-öncelikli olarak. Tetikleyici kuralı somut olabilir: edge cihaz her kare için ucuz bir referanssız kalite skoru (ör. BRISQUE türevi) ve tespit modelinin güven dağılımını hesaplar; yalnızca hem kalite skoru eşiğin altındaysa hem de alt-akış modeli düşük güven veriyorsa kare buluttaki SR kuyruğuna düşer. Böylece zaten okunabilir kareler için pahalı difüzyon hiç çalışmaz ve GPU bütçesi yalnızca gerçekten belirsiz karelere harcanır.

İki nicelik fizibiliteyi belirler. Gecikme: çok-adımlı örnekleme + milyarlarca-parametreli omurga, gerçek-zamanlı bir footfall akışı için iki-üç kat büyüklük fazla yük getirir; demek ki difüzyon SR ya çevrimdışı/asenkron çalışır ya da az-adımlı distile bir varyantla pilotta yeniden ölçülür. Doğrulama: SR'ı hatta almadan önce, etiketli bir saha kümesinde "SR'lı" ve "SR'sız" iki kolu koşturup sayım hata oranı ile demografi doğruluğunu yan yana raporlamak şarttır; iyileşme istatistiksel olarak anlamlı değilse özellik beslemesinde kullanılmaz. Ve daima: üretilen ile korunan bölgeyi ayırt eden, çıktıyı "AI ile üretildi" diye etiketleyen bir denetim izi. Bu, hem operasyonel şeffaflık hem de — kanıt bağlamında asla kullanılmaması gereken bir çıktının yanlışlıkla kanıt diye sunulmasını önleyen — bir güvenlik kilididir.

3Y'nin değerlendirmesi

Difüzyon-tabanlı süper-çözünürlüğün — ve onun ölçek-ucundaki temsilcisi SUPIR'in — pratik faydası koşulludur, evrensel değil. O bir restorasyon aracı değil, koşullu bir üreticidir: algı–bozulma ödünleşiminin algısal ucunda durduğundan, gözle nefes kesici kareler üretirken piksel sadakatinden ödün verir. Bu, üretilen detayın gerçek değil en olası olduğu anlamına gelir. 3Y olarak konumumuz nettir: difüzyon SR çıktısı gösterim ve alt-akış metriğiyle valide edilmiş özellik beslemesi için değerli; tanıma ve kanıt için kabul edilemezdir. Footfall hattımızda onu yalnızca bulut tarafında, seçici tetikli, az-adımlı bir varyantla ve "SR'lı vs. SR'sız" kollarla istatistiksel olarak doğrulanmış biçimde kullanırız — asla edge'de varsayılan, asla kanıtta. Onu bir restorasyon sihri değil, kaderine göre değeri tamamen değişen, dikkatle kutulanması gereken bir araç olarak görüyoruz.

§ 07 — ReferanslarKaynakça

  1. Fanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao, Chao Dong, "Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild" (SUPIR), CVPR 2024. arXiv:2401.13627
  2. Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer, "High-Resolution Image Synthesis with Latent Diffusion Models", CVPR 2022.
  3. Jonathan Ho, Ajay Jain, Pieter Abbeel, "Denoising Diffusion Probabilistic Models", NeurIPS 2020.
  4. Jonathan Ho, Tim Salimans, "Classifier-Free Diffusion Guidance", NeurIPS 2021 Workshop on Deep Generative Models.
  5. Yochai Blau, Tomer Michaeli, "The Perception-Distortion Tradeoff", CVPR 2018.
  6. Xintao Wang, Liangbin Xie, Chao Dong, Ying Shan, "Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data", ICCV Workshops 2021.
← Önceki yazı
vLLM ve Triton ile maliyet optimizasyonu — pratik karşılaştırma
Sonraki yazı →
Bu yayın, İçgörüler'in en güncel sayısıdır. Bültene abone olarak yeni yayınlardan haberdar olabilirsiniz.