新芽专题介绍(49):视频生成与质量评估
一、专题介绍
1.1 研究背景
随着多模态大模型的发展,视频生成技术正从早期的低分辨率合成逐步迈向高质量、长时序和多条件可控的生成阶段。尤其是以扩散模型和统一多模态预训练框架为代表的方法,正在推动视频理解与生成的深度融合,使模型能够在同一参数体系下兼顾事件识别、语义解析与视频生成等任务。同时,视频质量评估是衡量数据可用性和驱动数据闭环迭代的核心环节。然而,现有主流方法多采用端到端回归框架,将复杂的质量感知任务简化为单一的分数预测,面临着可解释性、鲁棒性、扩展性 上的科学挑战。
1.2 研究意义
1.提升跨任务泛化能力:通过共享语义空间和模型参数,统一模型能够在理解和生成任务之间迁移知识,显著提升模型的适应性与鲁棒性。
2.推动人工智能新范式:实现视频理解与生成统一,有助于打破传统任务割裂的局限,推动多模态大模型在统一框架下完成识别、推理与生成任务。
3.建立科学评价体系:针对现有指标不足,研究视频质量评估有助于构建多维度、可量化的标准,为学术界和产业界提供统一参照。
4.为模型优化提供反馈:高效的评估指标可作为训练与推理过程中的优化信号,帮助生成模型在迭代中持续提升表现。
1.3 当前主要挑战
尽管方向重要,但实现理解与生成统一的视频生成模型和质量评估仍然面临多重挑战:
挑战一:时序对齐不足:
- 文本往往来自字幕或整体描述,和视频关键帧/镜头缺乏精确的时间对应,导致训练时模态对齐噪声大;
挑战二:语境碎片化
- 文本描述往往是孤立句子,不能体现跨句的语义连贯(例如动作的连续性、故事逻辑),导致模型生成的视频缺乏连贯性。
挑战三:数据与标注问题
- 在原生多模态视频数据的采集与利用上,仍普遍面临“高冗余、低密度”的瓶颈——缺乏能高效提取跨模态语义信号的通用范式,导致数据规模虽大,信息增益却有限。
挑战四:黑盒化输出
- 许多模型仅能给出单一质量分数,缺乏可解释性和证据支撑,难以为数据清洗、再采集或增强提供明确指引。
综上,理解与生成统一的视频生成模型和视频质量评估技术仍在探索突破阶段,这是一个很好的学习窗口:既能接触实际需求,又能跟随前沿研究。
二、学习资料与参考文献
为了引导新芽学子逐步进入研究,本专题结构分为以下四部分:
2.1 基础教材与学习材料
在开始探险之前,你需要掌握一些基础的“内功心法”,这些是后续一切学习的基石。以下是你可以使用的一些书籍/教程:
《Deep Learning》(Ian Goodfellow 等)——深度学习入门经典教材
PyTorch 官方教程,也可以使用 PyTorch 中文文档
《Pattern Recognition and Machine Learning》(Christopher M. Bishop)——机器学习原理入门(难度不小)
此外,你也可以使用一些入门工具:
Google Colab:免费云平台,不用安装软件,就能跑PyTorch代码。
Kaggle平台:免费数据集和竞赛
Tips:务必摆脱所有基础都打好后,再进行下一阶段学习的心态,在干中学,遇到不明白的再回溯补基础。
2.2 入门文献
学生第一阶段的阅读训练,可帮助理解理解与生成统一的视频生成模型和质量评估这一通用方向。仅用于入门,不可选择此部分文献汇报。
- GAN:Generative Adversarial Nets (NeurIPS 2014)
- Mocogan: Mocogan: Decomposing motion and content for video generation (CVPR 2018)
- VAE: Auto-Encoding Variational Bayes (ICLR 2014)
- Transformer: Attention is all you need (NeurIPS 2017)
- Make-a-video: Make-a-video: Text-to-video generation without text-video data (ICLR 2023)**
- LPIPS: The Unreasonable Effectiveness of Deep Features as a Perceptual Metric (CVPR 2018)
- FVD: Towards Accurate Generative Models of Video: A New Metric & Challenges(Arxiv 2018)
- Stable diffusion: High-Resolution Image Synthesis with Latent Diffusion Models (CVPR 2022)
- ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models (ICCV 2023)
2.3 进阶文献(视频生成前沿方法)
学生可在此部分选择进阶文献进行专题汇报,或自行查找最新的同类重要文献。
- Phenaki: Phenaki: Variable length video generation from open domain textual description (ECCV 2022 )
- Cogvideo: Cogvideo: Large-scale pretraining for text-to-video generation via transformers (Arxiv 2022)
- Imagen video:Imagen video: High definition video generation with diffusion models (Arxiv 2022)
- Stable Video Diffusion: Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets (Arxiv 2023)
- Text2video-zero: Text2video-zero: Text-to-image diffusion models are zero-shot video generators(ICCV 2023)
- MetaQueries: Transfer between Modalities with MetaQueries (Arxiv 2025)
- Unitoken: Unitoken: Harmonizing multimodal understanding and generation through unified visual encoding(CVPR 2025)
- UniFluid: Unified autoregressive visual generation and understanding with continuous tokens (Arxiv 2025)
- Visual Planning: Visual Planning: Let’s Think Only with Images. (Arxiv 2025)
2.4 理解生成统一的视频生成和视频质量评估领域相关文献
结合本专题的研究背景,逐渐引导学生进入理解生成统一的多模态模型和视频质量评估研究领域。学生可在此部分选择进阶文献进行专题汇报,或自行查找最新的同类重要文献。
- Begal: Emerging properties in unified multimodal pretraining (Arxiv 2025)
- Show-o: Show-o: One single transformer to unify multimodal understanding and generation (ICLR 2025)
- Show-o2: Show-o2: Improved Native Unified Multimodal Models (Arxiv 2025)
- Janusflow:Janusflow: Harmonizing autoregression and rectified flow for unified multimodal understanding and generation (CVPR 2025)
- Janus-pro: Janus-pro: Unified multimodal understanding and generation with data and model scaling (Arxiv 2025)
- Visual sketchpad: Visual sketchpad: Sketching as a visual chain of thought for multimodal language models.(NeurIPS 2024)
- DeepEyes: DeepEyes: Incentivizing" Thinking with Images" via Reinforcement Learning (Arxiv 2025)
- DyFo : DyFo: A Training-Free Dynamic Focus Visual Search for Enhancing LMMs in Fine-Grained Visual Understanding (CVPR 2025)
- Finevq: Finevq: Fine-grained user generated content video quality assessment. (CVPR 2025)
三、结语与期望
“新芽计划”的初衷是点燃新芽学子对未知探索的热情,并为大家提供一片成长的沃土。海报生成是一个充满挑战与机遇的领域,它既是国家需求的“硬骨头”,也是学术创新的“试金石”。希望通过这个专题,新芽学子不仅能学到前沿的 AI 知识,更能培养出独立思考、动手实践和解决复杂问题的能力。
我们热切期待,在最终的汇报中,能看到大家闪耀着智慧火花的解读与创见!