新芽专题介绍(10):Sim2Real——域适应与域泛化

一、专题介绍

1.1 研究背景与统一定义

计算机视觉中,Sim2Real指模型从模拟/合成域迁移到真实域时,由于数据分布不一致而产生的性能退化(域偏移,Domain Shift)。域偏移通常体现在以下维度:外观(光照、天气、纹理/噪声)、几何(视角、尺度、运动模糊)、传感器(成像响应、分辨率、白平衡/噪声模型)、上下文(背景共现、场景布局)以及标签空间(类别覆盖与分布)。

image-20250918180019493

▲ 仿真域与真实域对比 典型跨域场景示例:

  • 自动驾驶(合成→真实/晴天→夜雨雾):在 CARLA/GTA 等仿真数据上训练的检测器,迁移到真实城市道路或恶劣天气时精度显著下降(逆光、雨滴、反射、运动模糊)。
  • 安防与无人机(可见光→红外/地面→空中):成像模态或视角变化导致外观与尺度分布改变,出现小目标、遮挡、背景干扰增强等问题。
  • 工业质检(虚拟贴图→真实工件):仿真纹理规则、噪声可控,真实工件存在不规则划痕、油污与反光,使得特征分布产生系统偏移。

image-20250918191023389

​ 图2.游戏GTA5中采集的图像示例–Playing for Data: Ground Truth from Computer Game

围绕域偏移,形成两条基本范式:

  • 域自适应(Domain Adaptation, DA):在已知目标域(或目标域簇)上进行适配。常见子设定包括
    SDA/SSDA(目标域多/少量标注)、UDA(目标域无标注,最常见)、SFDA(适配期不再访问源数据,仅用源模型与目标未标注数据)、TTA/CTTA(测试时/持续测试时适配,应对在线域漂移)。
  • 域泛化(Domain Generalization, DG):训练阶段不接触目标域,只利用一个或多个源域学习域不变表征,以便对未知新域直接泛化

注:DA ≠ UDA。UDA 是 DA 的一种常用设定;DA 还包含 SSDA/SFDA/TTA 等更广场景。

为简明起见,这里仅给出 UDA 的典型目标(在源域监督训练,同时缩小源/目标特征分布差异): [ \min_{\theta}\ \underbrace{\mathcal{L}{\text{src}}\big(f\theta;,\mathcal{D}s\big)}{\text{源域有标注}} ;+;\lambda,\underbrace{D!\Big(\phi_\theta(\mathcal{D}s),\ \phi\theta(\mathcal{D}t)\Big)}{\text{源/目标特征分布对齐}} ] 其中 (\mathcal{D}_s) 为源域带标注数据、(\mathcal{D}_t) 为目标域未标注数据;(D(\cdot)) 可为对抗对齐、统计对齐(如 CORAL/MMD)等。DG 则不使用 (\mathcal{D}_t),转而通过多源正则化/不变性约束获得可迁移表征。


1.2 研究意义

(1)数据与标注成本可控。 真实环境的高质量标注昂贵且难以覆盖全部场景。DA 可在零/少标注条件下将模型迁移到新城市、新传感器或新时段;DG 则力求一次训练、多处可用,显著降低数据获取与人工标注成本。

(2)工程部署的可移植性与可维护性。 设备升级(相机换型)、地域迁移(跨国家/城市)、场景变化(白天→夜晚、晴天→恶劣天气)常导致模型失配。DA/TTA 支持快速适配与在线校准,DG 提升对版本/环境变化的天然稳健性,缩短从实验到上线的周期。

(3)鲁棒性与安全性提升。 在自动驾驶、安防与无人机等安全敏感场景,模型需要面对长尾与极端条件(逆光、雨雾雪、低照度、遮挡、小目标)。DA/DG 有助于弱化模型对背景纹理和成像风格的依赖,增强对目标本体特征的关注,从而提高稳健性与安全裕度

(4)仿真资源的有效利用。 仿真平台能够系统生成可控、可重复的样本与稀有情形(如极端天气、罕见交通事件)。通过跨域适配/泛化,可将仿真中学习到的能力迁移到真实系统,提升对罕见风险的覆盖。

1.3 当前主要挑战

  1. 外观/传感器差异显著:颜色、纹理、噪声、分辨率、动态范围差异导致特征带强域特性,迁移失效。
  2. 语义/上下文分布偏移:姿态/视角、场景布局、背景共现关系与类别分布差异诱发“伪相关”。
  3. 跨模态与持续漂移:可见光↔红外、合成点云↔真实激光雷达,以及白天↔夜晚/晴↔雨等时间连续变化,超出静态两域难度。
  4. 检测任务特有难点:相较分类/分割,检测还受尺度、前景-背景不平衡、定位与置信度校准等因素影响。

二、学习资料与参考文献

2.1 基础教材与学习材料

  • 李沐等:《动手学深度学习》D2L(含配套视频)
  • PyTorch 官方教程(可配合中文文档)
  • 【霹雳吧啦Wz的个人空间-哔哩哔哩】 https://b23.tv/q1YT0dL (代码逐行解释)

实践建议:以小实验驱动学习(Colab/Kaggle),遇到概念再回溯,效率更高。

2.2 入门文献(经典、便于打地基)

2.3 进阶文献(以目标检测为主)

A. 目标检测 · 领域自适应(DA / SFDA / TTA)

B. 目标检测 · 领域泛化(DG)

C. 语义分割 · UDA / 通用设定(补充)

D. 综述 / 指南(推荐)

E. 可选扩展(Workshop / 预印本)

2.4 目标检测方向精选清单(建议优先报告

「检测为主」+「2024–2025 顶刊/顶会」+「覆盖 DA / DG / SFDA / TTA 代表作」

  • DA/TTA:SEEN‑DA(CVPR 2025);CAT(CVPR 2024);Active DA with False‑Negative(CVPR 2024);CD‑FSOD(ECCV 2024)。
  • DG:Generalized Diffusion Detector(CVPR 2025);OA‑DG(AAAI 2024);Generalized UAV OD(IJCV 2024);Watching it in Dark(ECCV 2024)。
  • 综述:SFDA Survey(TPAMI 2024);多模态 DA/DG Survey(arXiv 2025)。

三、结语与期望

跨越“模拟→真实”的鸿沟,是视觉系统落地的关键一步。通过本专题,你将系统把握 DA/DG/SFDA/TTA 的问题设定、评测基准与代表方法,完成读论文 → 复现对比 → 小型改进的科研链条。期待你在最终汇报中:
1)清晰定义任务与设定;2)给出强基线与严格评测;3)提出小而有效的改进(如:更稳健的伪标签/对齐策略、利用 VLM/扩散模型的蒸馏/指导、频域/风格解耦、测试期稳定化等),推动模型更稳泛化、更易适配

Yimian Dai
Yimian Dai
Associate Professor

南开大学计算机学院副教授,专注于红外弱小目标检测、多模态视觉感知方向的研究。