ESRGAN论文笔记

用gpt整理一下,简单复现了一下这一篇,想提取高阶退化建模部分,但是发现作者居然整合到pip的包里面,尝试了一下最简的降阶,然后用差分网络处理了一下,效果真的可以,比直接的LGFI Block的提取的效果好。

摘要与核心贡献

Real-ESRGAN是针对真实世界盲超分辨率问题的改进模型,通过纯合成数据训练解决复杂退化问题。其核心创新包括:

  1. 高阶退化建模:提出二阶退化过程模拟多次叠加的退化(如相机成像、网络传输、多次编辑压缩),突破传统单阶模型的局限性。
  2. 振铃/过冲伪影建模:引入sinc滤波器模拟图像处理中常见的边缘伪影,提升模型对真实伪影的恢复能力。
  3. 网络架构改进:采用U-Net结构判别器增强局部细节判别能力,结合谱归一化技术稳定对抗训练过程。

实验表明,该模型在多个真实数据集上超越现有方法(如BSRGAN、RealSR),在纹理恢复与伪影抑制间取得更好平衡。


方法技术细节

退化模型创新

经典退化模型扩展:将单次退化(模糊+下采样+噪声+JPEG)扩展为二阶过程,每次退化包含随机参数组合(如不同模糊核、噪声强度、压缩质量)。
模糊核多样性:除高斯核外,引入广义高斯核和平台分布核,覆盖各向异性模糊与锐化退化。
动态合成策略:采用训练样本池(pool size=180)提升批量数据退化多样性,避免同批次退化模式单一化。

网络架构设计

生成器:沿用ESRGAN的RRDB主干,增加Pixel-Unshuffle预处理降低计算量,支持×1/×2/×4多尺度超分。
判别器改进:VGG式判别器升级为U-Net结构,输出像素级真实性反馈,增强局部纹理优化能力。
训练优化:采用两阶段训练(先L1损失预训练Real-ESRNet,后结合感知损失与GAN损失微调),引入EMA平滑提升稳定性。

关键技术补充

振铃伪影合成:在退化流程末端随机插入sinc滤波(概率0.8),模拟JPEG压缩与锐化操作交替产生的边缘振荡。
真实锐化增强:训练时对HR图像施加非锐化掩模(USM),提升输出结果的视觉锐度(Real-ESRGAN+变体)。


实验与评估

数据集与配置

训练数据:DIV2K+Flickr2K+OutdoorScene,256×256随机裁剪,批量48。
退化参数:模糊核尺寸721,高斯噪声σ∈[1,30],JPEG质量因子3095,动态调整二阶过程参数范围。
对比方法:ESRGAN、DAN、RealSR、BSRGAN等,测试集涵盖RealSR、DRealSR、OST300等真实场景数据。

关键结果

视觉质量:Real-ESRGAN在文字边缘伪影消除(首样例)、复杂噪声去除(次样例)和自然纹理恢复(砖墙、树木)上显著优于基线方法。
定量指标:NIQE分数在RealSR-Canon(4.53)、DRealSR(4.85)等数据集上达到最优,反映更接近真实分布的恢复效果。
消融实验
• 移除二阶退化导致噪声/模糊残留。
• 禁用sinc滤波使振铃伪影被放大。
• U-Net判别器+谱归一化组合提升细节真实性并抑制过锐化。


局限性与应用价值

主要局限
  1. 几何畸变:部分建筑场景出现线条扭曲,源于对齐误差或复杂形变退化的欠拟合。
  2. 非常规退化:超出合成退化空间的情况(如极端运动模糊)可能导致伪影放大。
  3. 计算开销:U-Net判别器与高阶退化合成增加训练成本(需4×V100 GPU)。
实际意义

落地应用:提供开源的即合成训练方案(BasicSR实现),支持动态生成退化数据,降低真实数据采集成本。
扩展方向:作者建议结合物理成像模型优化退化空间,探索轻量化架构以适应移动端部署。


   转载规则


《ESRGAN论文笔记》 plumbum 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
Latex部分容易忘的功能随记 Latex部分容易忘的功能随记
要求在一行内写下内容,字体自动调整\resizebox{\textwidth}{!}{test} \resizebox{\textwidth}{!} 的含义在 \resizebox{\textwidth}{!} 中: \textwidth
2025-03-20
下一篇 
Mono-ViFI论文笔记 Mono-ViFI论文笔记
VIVO新发的,感觉准确度真的高,比litemono都高不少。网络部分还没有完全弄懂。简单整理: 核心贡献 统一框架:将自监督单帧与多帧深度估计结合,共享权重实现紧凑架构 时间增强:通过光流视频插值(VFI)生成虚拟视图,解决遮挡区域的监督
2025-02-01
  目录