# Diffusion-based süper-çözünürlük: pratik faydası gerçek mi?

*Kategori: Görüntü işleme · Yayın: 2026-06-29*

> Difüzyon-tabanlı süper-çözünürlük gözle nefes kesici kareler üretiyor; ama bu güzellik bir kestirimdir, ölçüm değil. SUPIR'i örnek alıp algı-sadakat ödünleşimini, halüsinasyon riskini ve CCTV/footfall hattında ne zaman güvenli ne zaman tehlikeli olduğunu mühendislik gözüyle inceledik.

## § 01 — TL;DR || 30 saniyede özet

<ul class="tldr">
  <li><strong>Difüzyon-tabanlı süper-çözünürlük</strong> (diffusion-based super-resolution), düşük kaliteli bir kareyi yeniden örnekleyerek değil, <em>koşullu olarak üreterek</em> büyütür: çıktıdaki keskin doku ve kenarlar geri-kazanılmış sinyal değil, önselden (prior) <em>hayal edilmiş</em> en olası tahmindir.</li>
  <li>Bu ailenin ölçek ucundaki temsilcisi <strong>SUPIR</strong>, büyük bir önceden-eğitilmiş metin-görüntü difüzyon önselini dramatik biçimde ölçekleyip <strong>20 milyon</strong> yüksek-çözünürlüklü, metin-açıklamalı görüntüyle eğitiyor; restorasyonu metin komutuyla (prompt) yönlendirebiliyor<sup class="cite"><a href="#ref-1">[1]</a></sup>.</li>
  <li>Pratik faydanın kalbinde bir teorik sınır var: <strong>algı–bozulma ödünleşimi</strong> (perception–distortion tradeoff). Belirli bir bozulma seviyesinin altında algısal "güzelliği" artırmanın tek yolu, referansa olan piksel sadakatini düşürmektir<sup class="cite"><a href="#ref-5">[5]</a></sup>. Yani difüzyon SR gözle kazanırken ölçümle ödün verir.</li>
  <li>Bedeli üç eksende somut: (i) var olmayan detayı makul biçimde üretme — <em>halüsinasyon</em>; (ii) kare-kare titreşim (temporal flicker); (iii) çok-adımlı örnekleme + milyarlarca-parametreli omurganın getirdiği ağır gecikme. SUPIR bunları <em>negatif-kalite komutları</em> ve <em>restorasyon-rehberli örnekleme</em> ile dizginliyor ama yapısal olarak ortadan kaldıramıyor<sup class="cite"><a href="#ref-1">[1]</a></sup>.</li>
  <li>3Y için anlamı: düşük kaliteli CCTV/footfall karesinde difüzyon SR'ı yalnızca <em>gösterim</em> ve <em>alt-akış metriğiyle kanıtlanmış özellik beslemesi</em> için kullanmak güvenlidir; <em>tanıma ve kanıt</em> (yüz/plaka, adli eşleştirme) için tehlikelidir — çünkü üretilen her piksel, aksi kanıtlanana kadar bir tahmindir.</li>
</ul>

## § 02 — Problem || "Daha güzel kare" ile "daha doğru kare" aynı şey mi?

Süper-çözünürlük (super-resolution, SR), düşük kaliteli bir gözlemden yüksek kaliteli sahneyi kestirme problemidir. Bu sayfalarda restorasyon ailesinin farklı kollarını — tek talimatla yönlendirilen hepsi-bir-arada restorasyonu (InstructIR), frekans-alanı dikkatiyle bulanıklık gidermeyi (LoFormer) — daha önce incelemiştik. Bu yazının odağı bir mimari değil, bir *paradigma* ve onun pratik faydasına dair eleştirel bir soru: difüzyon-tabanlı SR'ın ürettiği nefes kesici kareler, bir mühendislik hattında gerçekten *işe yarar* mı, yoksa yalnızca *güzel mi görünür*?

Önce klasik kurgunun neden çöktüğünü hatırlayalım. Geleneksel SR literatürü uzun süre *bilinen* bir bozulma modeliyle çalıştı: yüksek-çözünürlüklü bir görüntüyü bicubic ile küçültüp eğitim çifti üret, sonra bu sentetik bozulmayı tersine çevirmeyi öğren. Gerçek dünyada böyle bir lüks yok. Bir AVM girişine bakan bir IP kameranın karesi aynı anda birçok bozulmadan muzdariptir: sensör gürültüsü, JPEG/H.264 sıkıştırma blokları, hareket bulanıklığı, düşük ışık, odak kayması, yeniden ölçeklenmiş düşük çözünürlük. Bozulma çekirdeği (degradation kernel) ne bilinir ne de sabittir; literatür buna **kör restorasyon** (blind restoration) der.

Gerçek bir bozulmayı, birden çok operatörün bileşkesi olarak yazabiliriz: yüksek kaliteli sahne $x$, bir bulanıklaştırma çekirdeği $k$ ile evrişir, $s$ kat alt-örneklenir, gürültü $n$ eklenir ve bir sıkıştırma operatörü $\mathcal{C}$ uygulanır. Gözlenen düşük kaliteli kare kabaca şudur:

$$
x_{\text{LQ}} = \mathcal{C}\bigl((x \ast k)\!\downarrow_s + n\bigr)
$$

Kör restorasyonun zorluğu, $k$, $s$, $n$ ve $\mathcal{C}$ parametrelerinin bilinmemesi *ve* karelere göre değişmesidir; üstelik $\mathcal{C}$ (JPEG/H.264) kayıplı ve geri-çevrilemezdir. Bu yüzden problem matematiksel olarak *kötü-konumlanmıştır* (ill-posed): aynı $x_{\text{LQ}}$'yu üreten sonsuz sayıda makul $x$ vardır. 8 piksel genişliğindeki bir plaka karakteri ya da 20 piksellik bir yüz, geri getirilecek bir "sinyal" değil, *yeniden kurulması* gereken bir tahmindir.

Çözümü tekleştiren tek şey **önseldir** (prior) — "doğal görüntüler nasıl görünür" bilgisi. İşte difüzyon SR'ın tezi tam burada: eğer önsel yeterince büyük ve zenginse — internet ölçeğinde eğitilmiş, milyarlarca parametreli bir üretici difüzyon modeli — restorasyon "bilgiyi geri kazanmak" yerine "girdiyle tutarlı kalarak en olası yüksek-kaliteli sahneyi hayal etmek" problemine dönüşür<sup class="cite"><a href="#ref-1">[1]</a></sup>. Olasılıksal terimlerle bu, sonsal olasılığı en büyükleyen kestirimdir:

$$
\hat{x} = \arg\max_{x} \, p(x \mid x_{\text{LQ}}) \;\propto\; \underbrace{p(x_{\text{LQ}} \mid x)}_{\text{veri-uyum}} \;\cdot\; \underbrace{p(x)}_{\text{önsel}}
$$

Difüzyon önseli $p(x)$ terimini taşır; girdiye bağlama mekanizması ise veri-uyum terimi $p(x_{\text{LQ}} \mid x)$'i. Bu güçlü bir fikir. Ama mühendislik açısından kritik soru şudur: bu "hayal" girdiye ne kadar bağlı kalır — yani önsel terimi veri-uyum terimini *ne zaman ezer*? Önsel ezdiği anda çıktı "daha güzel" ama "daha az doğru" hâle gelir. Bir footfall hattında istediğimiz şey gözle güzel bir kare değil, alt-akış tespit/sayım modeline *sadık* bir girdidir; ve bu iki hedef — algısal güzellik ile sadakat — difüzyon SR'da çoğu zaman aynı yönü göstermez. Üstelik bunun ardında tesadüf değil, ispatlanmış bir teorik sınır vardır.

## § 03 — Yöntem || Difüzyon önseli + bağlama + dil rehberliği (örnek: SUPIR)

Difüzyon-tabanlı SR'ı somutlaştırmak için ölçek ucundaki örneği — SUPIR'i (Scaling-UP Image Restoration) — referans alalım. SUPIR'in merkezî kaldıracı, adından da anlaşılacağı gibi *model ölçeğidir*: büyük, önceden-eğitilmiş bir metin-görüntü difüzyon önselini alıp restorasyon kapasitesini artıracak biçimde dramatik olarak ölçekler<sup class="cite"><a href="#ref-1">[1]</a></sup>. Yöntemi üç parça hâlinde okumak en temizidir; ve burada gösterdiğimiz formüller, makaleden *birebir alıntı değil*, difüzyon SR'ın üzerine inşa edildiği mekanizmayı görselleştiren *temsilî* denklemlerdir.

**1) Üretici difüzyon önseli ve ölçek.** Üretici bir difüzyon modeli, gürültüden başlayıp adım adım temiz görüntüye yakınsayan ters difüzyon sürecini öğrenir<sup class="cite"><a href="#ref-3">[3]</a></sup>; pratikte bu, hesabı piksel uzayı yerine sıkıştırılmış bir gizil uzayda yapan gizil-difüzyon (latent diffusion) omurgaları üzerinde kurulur<sup class="cite"><a href="#ref-2">[2]</a></sup>. İleri süreç, temiz görüntü $x_0$'a kademeli Gauss gürültüsü ekler:

$$
x_t = \sqrt{\bar\alpha_t}\, x_0 + \sqrt{1-\bar\alpha_t}\,\epsilon, \qquad \epsilon \sim \mathcal{N}(0, I)
$$

Burada $\bar\alpha_t = \prod_{s=1}^{t}\alpha_s$ gürültü çizelgesini, $t$ ise difüzyon adımını verir. Ağ $\epsilon_\theta$, her adımda eklenen gürültüyü kestirmeyi öğrenir; eğitimin temel hedefi gizil-uzay difüzyon yitimidir (latent-diffusion denoising objective):

$$
\mathcal{L} = \mathbb{E}_{x_0,\, t,\, \epsilon}\!\left[\,\bigl\lVert \epsilon - \epsilon_\theta(x_t,\, t,\, c)\bigr\rVert_2^2\,\right]
$$

SUPIR'in ayırt edici hamlesi bu önseli *ölçeklemektir* — hem omurganın kapasitesini büyüterek hem de **20 milyon** yüksek-çözünürlüklü, betimleyici metin açıklamalı görüntüden oluşan devasa bir veri kümesiyle eğiterek<sup class="cite"><a href="#ref-1">[1]</a></sup>. Buradaki mühendislik sezgisi nettir: önsel ne kadar zengin ve geniş kapsamlıysa, kör restorasyonda "en olası sahne" kestirimi o kadar inandırıcı olur. Ölçek, bu yaklaşımın hem gücünün hem maliyetinin kaynağıdır.

**2) Girdiye bağlama (koşullama).** Düşük kaliteli (LQ) girdiyi bu üretici sürece bağlamak için, büyük difüzyon gövdesi tipik olarak *dondurulur* ve yanına bir bağlama mekanizması (adaptör) eklenir — bu, ControlNet ailesinin felsefesidir: büyük üreticiyi koru, kontrolü kenara as. LQ görüntüden çıkarılan özellikler $F_{\text{LQ}}$, difüzyon ağına koşul olarak enjekte edilir; restorasyon yitimi, koşullu gürültü kestiriminin beklenen karesel hatasıdır:

$$
\mathcal{L}_{\text{restore}} = \mathbb{E}_{x_0,\, t,\, \epsilon}\!\left[\,\bigl\lVert \epsilon - \epsilon_\theta(x_t,\, t,\, c,\, F_{\text{LQ}})\bigr\rVert_2^2\,\right]
$$

Adaptörün işi naziktir: üreticinin yaratıcılığını *dizginlemek* ama tamamen boğmamak. Çok zayıf koşullama girdiye sadakatsiz uydurmaya, çok sert koşullama ise GAN tabanlı restoratörlerin "plastik" çıktısına geri dönüşe yol açar. Bu denge, difüzyon SR'ın merkezî tasarım gerilimidir.

**3) Çok-kipli dil rehberliği ve negatif-kalite komutları.** SUPIR, 20M görüntü–metin çiftiyle eğitildiği için restorasyonu bir metin istemiyle yönlendirebilir; bu, yöntemin "yeni bir yetenek" olarak öne çıkardığı özelliktir<sup class="cite"><a href="#ref-1">[1]</a></sup>. Anahtar mühendislik hilesi **negatif-kalite komutlarıdır** (negative-quality prompts): pozitif komut $c_{pos}$ ("keskin, yüksek çözünürlüklü fotoğraf") ile negatif komut $c_{neg}$ ("bulanık, gürültülü, JPEG artefaktı") arasında sınıflandırıcısız rehberlik (classifier-free guidance, CFG)<sup class="cite"><a href="#ref-4">[4]</a></sup> uygulanır:

$$
\hat\epsilon_\theta(x_t, c_{pos}, c_{neg}) = \epsilon_\theta(x_t, c_{neg}) + w\,\bigl[\epsilon_\theta(x_t, c_{pos}) - \epsilon_\theta(x_t, c_{neg})\bigr]
$$

$w$ rehberlik ağırlığıdır; örnekleyiciyi "kalitesiz" yönden uzaklaştırıp "kaliteli" yöne iter — algısal kaliteyi yükselten ucuz ama etkili bir kol. Son olarak **restorasyon-rehberli örnekleme** (restoration-guided sampling), difüzyon-tabanlı restorasyonu sık vuran *sadakat sorununu* (girdiden kayma) bastırmak için tasarlanmış, örnekleme-zamanı bir tekniktir. Konsept olarak bu, ters-difüzyon güncellemesine bir veri-tutarlılık (data-consistency) gradyan terimi ekler:

$$
x_{t-1} = \mu_\theta(x_t, t, c) - s\,\nabla_{x_t}\mathcal{L}_{\text{fidelity}}(x_t, y_{\text{LQ}}) + \sigma_t z
$$

Burada $\mu_\theta$ ortalama kestirim, $s$ rehberlik adımı, $\sigma_t z$ örnekleme gürültüsüdür. Bu terim halüsinasyonu *yok etmez* — yalnızca üretilen detayın girdiden çok uzaklaşmasını sınırlar.

> Difüzyon-tabanlı süper-çözünürlük özünde bir geri-kazanım değil, *koşullu üretimdir*: girdiyi bir kısıt olarak alıp, o kısıta uyan en olası yüksek-kaliteli sahneyi örnekler. Bu cümle, yöntemin hem gücünün hem riskinin tek satırlık özetidir.

<figure class="diagram"> <div class="chart-title">ŞEKİL · Difüzyon-tabanlı restorasyon (SUPIR)</div> <svg viewBox="0 0 760 430" role="img" aria-label="Düşük kaliteli kareden görüntü kodlayıcıya, dondurulmuş difüzyon önseli ve adaptörün birleşimiyle CFG-rehberli ters difüzyona, ardından veri-tutarlılık geri-çekmeli restorasyon-rehberli örneklemeden yüksek kaliteli çıktıya uzanan akış."> <defs> <marker id="ar" markerWidth="9" markerHeight="9" refX="7" refY="3" orient="auto"> <path d="M0,0 L7,3 L0,6 Z" fill="#6b7280"/> </marker> </defs> <text x="120" y="30" text-anchor="middle" font-family="ui-monospace, monospace" font-size="10.5" fill="#6b7280" letter-spacing=".08em">GİRDİ &amp; KODLAMA</text> <text x="500" y="30" text-anchor="middle" font-family="ui-monospace, monospace" font-size="10.5" fill="#6b7280" letter-spacing=".08em">DİFÜZYON ÇEKİRDEĞİ</text> <rect x="360" y="44" width="372" height="262" rx="9" ry="9" fill="#f4f6fa" stroke="#e2e6ee"/> <rect x="40" y="48" width="160" height="46" rx="7" ry="7" stroke="#0d1f4c" stroke-width="1.5" fill="#ffffff"/> <text x="120" y="69" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">LQ kare</text> <text x="120" y="85" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="11" fill="#6b7280">(düşük kalite girdi)</text> <line x1="120" y1="94" x2="120" y2="124" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)"/> <rect x="40" y="126" width="160" height="46" rx="7" ry="7" stroke="#0d1f4c" stroke-width="1.5" fill="#ffffff"/> <text x="120" y="153" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">görüntü kodlayıcı</text> <line x1="120" y1="172" x2="120" y2="202" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)"/> <rect x="40" y="204" width="160" height="46" rx="7" ry="7" stroke="#0d1f4c" stroke-width="1.5" fill="#f4f6fa"/> <text x="120" y="225" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">F_LQ</text> <text x="120" y="241" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="11" fill="#6b7280">koşullama gizili</text> <line x1="200" y1="227" x2="372" y2="227" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)"/> <rect x="392" y="60" width="190" height="56" rx="7" ry="7" stroke="#0d1f4c" stroke-width="1.5" fill="#ffffff"/> <text x="487" y="82" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">dondurulmuş</text> <text x="487" y="98" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">difüzyon önseli</text> <rect x="376" y="206" width="120" height="56" rx="7" ry="7" stroke="#0d1f4c" stroke-width="1.5" fill="#ffffff"/> <text x="436" y="228" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">adaptör /</text> <text x="436" y="244" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">koşullama</text> <circle cx="520" cy="150" r="13" fill="#ffffff" stroke="#0d1f4c" stroke-width="1.5"/> <text x="520" y="155" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="14" fill="#1a1f36">⊕</text> <path d="M487,116 C487,128 500,134 508,140" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)"/> <path d="M436,206 C436,180 470,162 506,156" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)"/> <rect x="592" y="48" width="128" height="44" rx="7" ry="7" stroke="#0d1f4c" stroke-width="1.5" fill="#f4f6fa"/> <text x="656" y="66" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">CFG koşulları</text> <text x="656" y="82" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="11" fill="#6b7280">c_pos , c_neg</text> <rect x="560" y="118" width="172" height="58" rx="7" ry="7" stroke="#0d1f4c" stroke-width="1.5" fill="#1e3a8a"/> <text x="646" y="141" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#ffffff">CFG-rehberli</text> <text x="646" y="157" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#ffffff">ters difüzyon</text> <line x1="656" y1="92" x2="650" y2="114" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)"/> <line x1="533" y1="150" x2="556" y2="147" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)"/> <text x="621" y="334" text-anchor="middle" font-family="ui-monospace, monospace" font-size="10.5" fill="#6b7280" letter-spacing=".08em">ÖRNEKLEME-ZAMANI SADAKAT</text> <rect x="510" y="344" width="222" height="62" rx="7" ry="7" stroke="#0d1f4c" stroke-width="1.5" fill="#ffffff"/> <text x="621" y="367" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">restorasyon-rehberli örnekleme</text> <text x="621" y="389" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="11" fill="#6b7280">veri-tutarlılık geri-çekme</text> <line x1="646" y1="176" x2="640" y2="340" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)"/> <path d="M510,372 C420,378 345,330 345,250 C345,170 470,168 588,176" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)" stroke-dasharray="5 3"/> <text x="333" y="262" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="13" fill="#6b7280">↻</text> <text x="318" y="300" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="10.5" fill="#6b7280">her adım</text> <rect x="40" y="344" width="160" height="62" rx="7" ry="7" stroke="#0d1f4c" stroke-width="1.5" fill="#f4f6fa"/> <text x="120" y="372" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="12.5" fill="#1a1f36">HQ çıktı</text> <text x="120" y="390" text-anchor="middle" font-family="ui-sans-serif, system-ui, sans-serif" font-size="11" fill="#6b7280">restore edilmiş</text> <line x1="510" y1="392" x2="202" y2="392" stroke="#6b7280" stroke-width="1.5" fill="none" marker-end="url(#ar)"/> </svg> <figcaption><span class="lbl">Şekil 1.</span> Düşük kaliteli kare bir görüntü kodlayıcıyla F_LQ gizil koşullamasına dönüşür; dondurulmuş difüzyon önseli ile adaptör ⊕ ile birleşip CFG-rehberli ters difüzyonu sürer, her adımda veri-tutarlılık geri-çekmeli restorasyon-rehberli örnekleme sadakati korur ve yüksek kaliteli çıktıyı üretir. Makaledeki mimariden uyarlanarak yeniden çizilmiştir.</figcaption> </figure>

Bu üç parça birlikte, difüzyon SR'ın neden bu kadar etkileyici göründüğünü açıklar: ölçeklenmiş önsel inandırıcı doku üretir, dil rehberliği içerik düzeyinde yön verir, sadakat rehberliği girdiye demir atar. Ama aynı üç parça, yapının kırılganlığını da açıklar — çünkü "inandırıcı doku" ile "doğru doku" arasındaki açık, bir sonraki bölümün konusudur.

## § 04 — Bulgular || Algı–sadakat ödünleşimi: kazanılan ve ödenen

Önce dürüst bir uyarı: SUPIR'in arXiv özet sayfasında somut olarak bildirilen *tek* sayı, 20 milyonluk eğitim veri kümesidir<sup class="cite"><a href="#ref-1">[1]</a></sup>. Karşılaştırmalı kıyaslama metrikleri (PSNR/SSIM/LPIPS/FID veya MANIQA/MUSIQ/CLIP-IQA değerleri), kıyas veri kümesi adları ve rakip yöntemlere (Real-ESRGAN, StableSR, DiffBIR vb.) karşı sayısal üstünlük rakamları özet sayfasında *yer almaz*; bunlar tam metinde yaşar ve burada uydurulmamalıdır. Dolayısıyla bu bölümün sayısal omurgası, difüzyon SR'ın bağlı olduğu *ispatlanmış teorik olgu* — algı–bozulma ödünleşimi — üzerine kuruludur; yöntem-bazlı konumlandırmalar ise bu olgunun yarattığı *eğilimi* gösteren göreli/temsilî göstergelerdir, mutlak benchmark skoru değil.

Algı–bozulma ödünleşimi (perception–distortion tradeoff), Blau ve Michaeli'nin ortaya koyduğu temel bir sonuçtur<sup class="cite"><a href="#ref-5">[5]</a></sup>: bir restorasyon çıktısının "gerçek fotoğraf gibi görünme" olasılığı (algı) ile referansa olan ortalama bozulması (sadakat) arasında, belirli bir eşiğin altında *zorunlu* bir gerilim vardır. Sezgisel olarak, çıktı dağılımı $p_{\hat{x}}$ ile gerçek görüntü dağılımı $p_x$ arasındaki mesafe küçüldükçe (yani çıktı daha "gerçek" göründükçe), referansa olan beklenen bozulma $\mathbb{E}\lVert\hat{x}-x\rVert$ *artmak zorundadır*:

$$
P^*(D) = \min_{p_{\hat{x}}} \; d\bigl(p_x,\, p_{\hat{x}}\bigr) \quad \text{öyle ki} \quad \mathbb{E}\,\lVert \hat{x} - x \rVert \le D
$$

Burada $P^*(D)$ fonksiyonu, izin verilen bozulma bütçesi $D$ verildiğinde ulaşılabilecek *en iyi algısal kaliteyi* (en küçük dağılım mesafesini) verir ve bu eğri monoton azalandır: bozulma bütçesini sıktıkça (küçük $D$) algısal kalite kötüleşir; algısal kaliteyi zorladıkça bozulma artar. Difüzyon SR, tasarımı gereği bu eğrinin *algısal ucunda* konumlanır — bu yüzden gözle nefes kesici, ölçümle tartışmalıdır. GAN tabanlı yöntemler (örn. Real-ESRGAN<sup class="cite"><a href="#ref-6">[6]</a></sup>) ortada bir yerde, klasik/regresyon-tabanlı yöntemler ise sadakat ucunda durur.

Aşağıdaki tablo, restorasyon ailesinin mühendislik okumasını eksen eksen özetler. Algısal sütunda yön "yüksek = iyi"; sadakat sütununda da "yüksek = iyi" ama üretici-önsel ailesinde göreli olarak düşüktür. Bu, bir kusur değil, ödünleşimin *beklenen* tezahürüdür.

| Yöntem ailesi | Önsel ölçeği | Algısal kalite (göreli) | Piksel sadakati (göreli) | Halüsinasyon riski | Dil ile kontrol | Üretim maliyeti |
|---|---|---|---|---|---|---|
| Bicubic / klasik | yok | çok düşük | **en yüksek** | yok | yok | çok düşük |
| GAN (Real-ESRGAN sınıfı) | küçük | orta | orta-yüksek | orta | yok | düşük |
| Difüzyon (orta ölçek) | orta | yüksek | orta | yüksek | sınırlı | yüksek |
| **Difüzyon + dev önsel (SUPIR örneği)** | **çok büyük** | **en yüksek** | **orta** | **en yüksek** | **güçlü (negatif komut)** | **çok yüksek** |

Tablonun okunma biçimi mühendislik açısından nettir: ölçeklenmiş difüzyon SR, *algısal* eksenin tepesini ele geçirir ve dil-kontrolü sütununda yalnız kalır; karşılığında sadakat, halüsinasyon ve maliyet sütunlarında en muhafazakâr çözümlerin gerisinde kalır. "En iyi model" diye bir şey yoktur; yalnızca hangi sütunu önemsediğinize bağlı bir seçim vardır. CCTV/footfall için önemsediğimiz sütun *sadakat ve halüsinasyon güvenliğidir*, salt algısal güzellik değil — ve tablo, difüzyon SR'ın tam da bu sütunlarda zayıf olduğunu gösterir.

<figure class="chart"><div class="chart-title">Algı–sadakat ödünleşimi (göreli konum; difüzyon SR algı ucunda)</div><svg viewBox="0 0 720 320" role="img" aria-label="Klasik, GAN, orta-ölçek difüzyon ve dev-önsel difüzyon yöntem ailelerinin göreli algısal kalite ve piksel sadakati skorlarını karşılaştıran çift çubuk grafik; algı yükseldikçe sadakat düşüyor"> <!-- y ekseni ve taban --> <line x1="150" y1="40" x2="150" y2="250" stroke="#6b7280" stroke-width="1"/> <line x1="150" y1="250" x2="690" y2="250" stroke="#6b7280" stroke-width="1"/> <!-- dikey ızgara (grup ayraçları) --> <line x1="285" y1="40" x2="285" y2="250" stroke="#e2e6ee" stroke-width="1"/> <line x1="420" y1="40" x2="420" y2="250" stroke="#e2e6ee" stroke-width="1"/> <line x1="555" y1="40" x2="555" y2="250" stroke="#e2e6ee" stroke-width="1"/> <!-- yatay ızgara --> <line x1="150" y1="145" x2="690" y2="145" stroke="#e2e6ee" stroke-width="1"/> <!-- y ekseni etiketleri 0..100 --> <text x="142" y="253" text-anchor="end" font-family="monospace" font-size="11" fill="#6b7280">0</text> <text x="142" y="149" text-anchor="end" font-family="monospace" font-size="11" fill="#6b7280">50</text> <text x="142" y="44" text-anchor="end" font-family="monospace" font-size="11" fill="#6b7280">100</text> <text x="44" y="148" text-anchor="middle" font-family="monospace" font-size="11" fill="#6b7280" transform="rotate(-90 44 148)">göreli skor</text> <!-- Klasik: algı 18, sadakat 95 --> <rect x="170" y="212" width="22" height="38" fill="#1e3a8a"/> <rect x="194" y="50" width="22" height="200" fill="#dbe5f5"/> <text x="192" y="265" text-anchor="middle" font-family="monospace" font-size="11" fill="#6b7280">Klasik</text> <text x="181" y="206" text-anchor="middle" font-family="monospace" font-size="11" fill="#0d1f4c">18</text> <text x="205" y="44" text-anchor="middle" font-family="monospace" font-size="11" fill="#6b7280">95</text> <!-- GAN: algı 60, sadakat 74 --> <rect x="305" y="125" width="22" height="125" fill="#1e3a8a"/> <rect x="329" y="96" width="22" height="154" fill="#dbe5f5"/> <text x="327" y="265" text-anchor="middle" font-family="monospace" font-size="11" fill="#6b7280">GAN</text> <text x="316" y="119" text-anchor="middle" font-family="monospace" font-size="11" fill="#0d1f4c">60</text> <text x="340" y="90" text-anchor="middle" font-family="monospace" font-size="11" fill="#6b7280">74</text> <!-- Difüzyon orta: algı 82, sadakat 58 --> <rect x="440" y="79" width="22" height="171" fill="#1e3a8a"/> <rect x="464" y="129" width="22" height="121" fill="#dbe5f5"/> <text x="462" y="265" text-anchor="middle" font-family="monospace" font-size="11" fill="#6b7280">Difüzyon</text> <text x="450" y="73" text-anchor="middle" font-family="monospace" font-size="11" fill="#0d1f4c">82</text> <text x="475" y="123" text-anchor="middle" font-family="monospace" font-size="11" fill="#6b7280">58</text> <!-- Dev önsel (SUPIR): algı 94, sadakat 54 --> <rect x="575" y="53" width="22" height="197" fill="#0d1f4c"/> <rect x="599" y="137" width="22" height="113" fill="#dbe5f5"/> <text x="597" y="265" text-anchor="middle" font-family="monospace" font-size="11" fill="#0d1f4c">Dev önsel</text> <text x="586" y="47" text-anchor="middle" font-family="monospace" font-size="11" fill="#0d1f4c">94</text> <text x="610" y="131" text-anchor="middle" font-family="monospace" font-size="11" fill="#6b7280">54</text> <!-- ödünleşim oku --> <line x1="216" y1="100" x2="586" y2="100" stroke="#6b7280" stroke-width="1" stroke-dasharray="3 3"/> <text x="300" y="94" font-family="monospace" font-size="11" fill="#6b7280">algı ↑</text> <text x="300" y="232" font-family="monospace" font-size="11" fill="#6b7280">sadakat ↓</text> <!-- legend --> <rect x="170" y="288" width="12" height="12" fill="#0d1f4c"/> <text x="188" y="298" font-family="monospace" font-size="11" fill="#6b7280">Algısal kalite (referanssız)</text> <rect x="410" y="288" width="12" height="12" fill="#dbe5f5"/> <text x="428" y="298" font-family="monospace" font-size="11" fill="#6b7280">Piksel sadakati (PSNR/SSIM)</text> </svg><figcaption><span class="lbl">Grafik 1.</span> Yöntem ailelerinin algı–sadakat düzlemindeki göreli konumu. Değerler, algı–bozulma ödünleşiminin (Blau &amp; Michaeli, CVPR 2018) öngördüğü <em>eğilimi</em> yansıtan normalize göstergelerdir (0–100); mutlak metrik skoru değildir. Amaç, önsel ölçeği büyüdükçe algı ekseninin yükselip sadakat ekseninin düşmesini görselleştirmektir — difüzyon SR'ın gözle kazanıp ölçümle ödün verdiği yer.</figcaption></figure>

Bu ödünleşimin footfall hattındaki pratik karşılığı, hafife alınmaması gereken bir paradokstur. Alt-akış sayım ve demografi modeli, eğitildiği veri dağılımına göre kalibre olmuştur. Difüzyon SR çıktısı "daha güzel" olsa da, ürettiği doku ve kenarlar gerçek kamera istatistiğinden saparsa, alt-akış modeli için bu bir *dağılım kaymasıdır* (distribution shift): algısal olarak iyileştirilmiş bir kare, paradoksal biçimde tespit modelinin daha *kötü* performans vermesine yol açabilir — çünkü model gerçek bulanık karelerle değil, üretici-detaylı karelerle hiç eğitilmemiştir. Bu, "iyi görünen girdi = iyi sonuç" sezgisinin neden tehlikeli olduğunun göstergesidir ve difüzyon SR'ı özellik beslemesinde kullanmadan önce *alt-akış metriğiyle* doğrulamayı zorunlu kılar. Alternatif bir yol, SR'ı girdiye uydurmak yerine alt-akış modeli SR'lı ve SR'sız karelerin karışımıyla yeniden eğiterek dağılımı genişletmektir; ama bu, ayrı bir Ar-Ge maliyeti demektir.

## § 05 — Sınırlar/Tartışma || Halüsinasyon ne zaman özellik, ne zaman hata?

Difüzyon SR'ın en dürüst ifadesi şudur: model, var olmayan detayı *makul biçimde uydurur* (hallucination). Bu davranışın iyi mi kötü mü olduğu tamamen çıktının *kaderine* bağlıdır — ve bu, yazının merkezî tezidir. SUPIR'in negatif-kalite komutları ve restorasyon-rehberli örnekleme gibi mekanizmaları bu kaymayı *dizginler*<sup class="cite"><a href="#ref-1">[1]</a></sup>, ama yapısal olarak ortadan kaldıramaz; çünkü problem tanımı gereği eksik bilgiyi doldurmaktır.

- **Halüsinasyonun yönelimi metinle değiştirilebilir — ki bu tanımada zehirdir.** Komuta "araç plakası" yazmak, modeli plaka tipografisine doğru iter; yani önyargı çıktıya *kasıtlı* enjekte edilir. Bir AVM kamerasından alınmış bulanık bir yüzü "iyileştirmek", aslında o yüzü önselin *en olası* yüzüne doğru kaydırmak demektir — gerçek kişiye değil. Tanıma ve kanıt bağlamında bu, sonucun güvenilirliğini kökten zedeler.

- **Dağılım dışı içerik (out-of-distribution).** Büyük difüzyon önselleri doğal görüntülerle eğitildi. CCTV'nin kendine özgü imzası — IR-aydınlatma yapaylıkları, aşırı sıkıştırma blokları, sensöre özgü gürültü, tepeden-eğik açı — bu doğal-görüntü dağılımından sapar. Önsel ne kadar büyük olursa olsun, eğitim dağılımında zayıf temsil edilen bir görünüm için ürettiği doku daha az güvenilirdir.

- **Video tutarlılığı (temporal flicker).** Kare kare uygulandığında, her karede farklı bir örnekleme yapıldığı için üretilen detaylar kareler arası titreşir. Difüzyon SR doğası gereği zamansal olarak tutarsızdır; oysa footfall hattının takip (tracking) ve yeniden-kimliklendirme (re-ID) bileşenleri tam da kareler-arası tutarlılığa dayanır. Titreşen doku, kimlik kaymasını (ID switch) tetikleyebilir.

- **Maliyet ve gecikme.** Çok-adımlı örnekleme + milyarlarca-parametreli omurga, tek kare için saniyeler mertebesinde GPU süresi demektir; bu, 25 fps'lik bir akışta gerçek-zamanlı işleme için iki-üç kat büyüklük fazladır. Difüzyon SR ya çevrimdışı/asenkron çalışır ya da az-adımlı (few-step) distile bir varyantla yeniden ölçülmelidir.

- **Sentetik vs. gerçek bozulma boşluğu.** Eğitimdeki bozulma boru hattı ne kadar zengin olsa da, gerçek bir kameranın sensör/sıkıştırma imzası farklıdır; literatürdeki algısal üstünlük her zaman saha üstünlüğüne çevrilmez. Bu yüzden her difüzyon SR dağıtımı, bir *pilot ölçümle* doğrulanmalıdır.

Bu sınırların ortak teması şudur: difüzyon SR'ın gücü (zengin önselden inandırıcı detay üretmek) ile riski (var olmayan detayı inandırıcı biçimde uydurmak) *aynı madalyonun iki yüzüdür*. Bu yüzden "halüsinasyon iyi mi kötü mü?" sorusu yanlış sorulmuştur; doğru soru, "bu çıktı nereye gidiyor?" sorusudur. Gösterime gidiyorsa halüsinasyon bir özelliktir; karara veya kanıta gidiyorsa bir hatadır. Bir sonraki bölüm, bu ayrımı 3Y hattında operasyonel bir kurala çevirir.

## § 06 — 3Y için anlamı || Difüzyon SR'ı doğru kutuya koymak

3Y'nin perakende footfall ve demografi hattındaki temel zincir tanıdıktır: kamera → kare → tespit (detection) → takip (tracking) → yeniden-kimliklendirme (re-ID) → sayım/demografi çıkarımı. Bu zincirin doğruluğu girdinin kalitesine duyarlıdır; düşük ışıkta veya uzaktan, yüz/silüet çözünürlüğü düştükçe demografi modelinin güveni çöker. Difüzyon SR burada cazip bir ön-işleme (pre-processing) adayı gibi görünür: ağır bozulmuş bir kareyi foto-gerçekçi biçimde zenginleştirip alt-akış modeline daha okunaklı bir girdi vermek. Ama "pratik faydası gerçek mi?" sorusunun cevabı, hattaki *yere* bağlıdır.

Doğru soruyu sormak gerekir: çıktının kaderi **gösterim** mi, **özellik beslemesi** mi, yoksa **kanıt** mı?

- **Gösterim** (operatör paneli, pazarlama görseli, ısı haritası altlığı, denetim kayıt önizlemesi): tolerans yüksektir; halüsinasyon kabul edilebilir. Difüzyon SR — SUPIR dâhil — burada rahatça kullanılabilir, çünkü amaç insan gözüne okunaklı bir kare sunmaktır, bir karar üretmek değil.
- **Özellik beslemesi** (sayım/demografi/re-ID modeline girdi): yalnızca SR'ın *alt-akış metriğini* — tespit mAP'si, sayım hata oranı, ID-switch sıklığı, demografi doğruluğu — istatistiksel olarak anlamlı biçimde iyileştirdiğini *kanıtladıktan* sonra. Referanssız "güzellik" skoruna değil; "SR'lı" ve "ham" iki kolu etiketli bir saha kümesinde yan yana koşturup *sayım hatasına* bakmaya. § 04'te tartıştığımız dağılım-kayması paradoksu nedeniyle, güzel görünen çıktı tespit doğruluğunu *düşürebilir*; bu yüzden bu kapı varsayılan olarak *kapalıdır* ve ancak kanıtla açılır.
- **Kanıt** (yüz/plaka tanıma, adli yüz eşleştirme, kimlik): difüzyon SR *kullanılmamalıdır*. Üretilen her piksel, aksi kanıtlanana kadar bir tahmindir; üstelik § 05'te gösterdiğimiz gibi, çıktı metin/önsel önyargısıyla *gerçek* kişiye değil *en olası* kişiye doğru kaydırılır. Bulanık bir plakayı "okunur" hâle getiren bir model, kanıt değil hipotez üretir; mahkemeler "AI ile iyileştirilmiş" kanıta haklı bir şüpheyle yaklaşır.

Pratik mimari önerimiz somuttur. Difüzyon SR'ı — ağır profili nedeniyle — hattın *kenarına* (edge) değil, *bulut tarafına* ve *seçici* bir tetikleyiciyle koymak gerekir: yalnızca kalite eşiğinin altına düşen karelerde, toplu (batch) ve düşük-öncelikli olarak. Tetikleyici kuralı somut olabilir: edge cihaz her kare için ucuz bir referanssız kalite skoru (ör. BRISQUE türevi) ve tespit modelinin güven dağılımını hesaplar; yalnızca *hem* kalite skoru eşiğin altındaysa *hem de* alt-akış modeli düşük güven veriyorsa kare buluttaki SR kuyruğuna düşer. Böylece zaten okunabilir kareler için pahalı difüzyon hiç çalışmaz ve GPU bütçesi yalnızca gerçekten belirsiz karelere harcanır.

İki nicelik fizibiliteyi belirler. **Gecikme:** çok-adımlı örnekleme + milyarlarca-parametreli omurga, gerçek-zamanlı bir footfall akışı için iki-üç kat büyüklük fazla yük getirir; demek ki difüzyon SR ya çevrimdışı/asenkron çalışır ya da az-adımlı distile bir varyantla pilotta yeniden ölçülür. **Doğrulama:** SR'ı hatta almadan önce, etiketli bir saha kümesinde "SR'lı" ve "SR'sız" iki kolu koşturup sayım hata oranı ile demografi doğruluğunu yan yana raporlamak şarttır; iyileşme istatistiksel olarak anlamlı değilse özellik beslemesinde kullanılmaz. Ve daima: üretilen ile korunan bölgeyi ayırt eden, çıktıyı "AI ile üretildi" diye etiketleyen bir denetim izi. Bu, hem operasyonel şeffaflık hem de — kanıt bağlamında asla kullanılmaması gereken bir çıktının yanlışlıkla kanıt diye sunulmasını önleyen — bir güvenlik kilididir.

<div class="verdict-block"><div class="label">3Y'nin değerlendirmesi</div><p class="text">Difüzyon-tabanlı süper-çözünürlüğün — ve onun ölçek-ucundaki temsilcisi SUPIR'in — pratik faydası <em>koşulludur</em>, evrensel değil. O bir <em>restorasyon aracı değil, koşullu bir üreticidir</em>: algı–bozulma ödünleşiminin algısal ucunda durduğundan, gözle nefes kesici kareler üretirken piksel sadakatinden ödün verir. Bu, üretilen detayın gerçek değil <em>en olası</em> olduğu anlamına gelir. 3Y olarak konumumuz nettir: difüzyon SR çıktısı <em>gösterim</em> ve <em>alt-akış metriğiyle valide edilmiş özellik beslemesi</em> için değerli; <em>tanıma ve kanıt</em> için kabul edilemezdir. Footfall hattımızda onu yalnızca bulut tarafında, seçici tetikli, az-adımlı bir varyantla ve "SR'lı vs. SR'sız" kollarla istatistiksel olarak doğrulanmış biçimde kullanırız — asla edge'de varsayılan, asla kanıtta. Onu bir restorasyon sihri değil, kaderine göre değeri tamamen değişen, dikkatle kutulanması gereken bir araç olarak görüyoruz.</p></div>

## § 07 — Referanslar || Kaynakça

<ol class="references">
  <li id="ref-1">Fanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao, Chao Dong, "Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild" (SUPIR), CVPR 2024. <a href="https://arxiv.org/abs/2401.13627" rel="noopener" target="_blank">arXiv:2401.13627</a></li>
  <li id="ref-2">Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer, "High-Resolution Image Synthesis with Latent Diffusion Models", CVPR 2022.</li>
  <li id="ref-3">Jonathan Ho, Ajay Jain, Pieter Abbeel, "Denoising Diffusion Probabilistic Models", NeurIPS 2020.</li>
  <li id="ref-4">Jonathan Ho, Tim Salimans, "Classifier-Free Diffusion Guidance", NeurIPS 2021 Workshop on Deep Generative Models.</li>
  <li id="ref-5">Yochai Blau, Tomer Michaeli, "The Perception-Distortion Tradeoff", CVPR 2018.</li>
  <li id="ref-6">Xintao Wang, Liangbin Xie, Chao Dong, Ying Shan, "Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data", ICCV Workshops 2021.</li>
</ol>

---

*HTML sürümü: https://3yteknoloji.com.tr/icgoruler/diffusion-super-cozunurluk · Kurumsal yapay zeka Ar-Ge — 3Y, ODTÜ Teknokent, Ankara.*
