
摘要
FramePack由斯坦福大学张吕敏等提出,是一种输入预处理模块,可无缝集成到主流视频扩散模型(如混元视频模型),通过自适应帧压缩和反漂移采样,有效提升长时序一致性和生成质量,支持13B模型在6GB显存上流畅生成长视频,显著降低算力门槛。
目录
2025年4月26日大约 6 分钟
FramePack由斯坦福大学张吕敏等提出,是一种输入预处理模块,可无缝集成到主流视频扩散模型(如混元视频模型),通过自适应帧压缩和反漂移采样,有效提升长时序一致性和生成质量,支持13B模型在6GB显存上流畅生成长视频,显著降低算力门槛。
扩散模型 (DMs) 在下游任务中反向传播计算成本高昂。本文提出捷径扩散优化 (SDO),通过仅保留一步计算图优化目标函数,显著降低约90%计算成本,同时保持或超越完整反向传播性能。SDO适用于潜变量优化、模型微调等任务,兼具通用性、高性能和轻量级特点。
本文为原文《Step by Step visual introduction to Diffusion Models》的中文翻译,原作者 Kemal Erdem。
扩散模型的概念并不久远。2015 年的论文《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》中,作者这样描述:
其核心思想,受非平衡统计物理学启发,是通过逐步的前向扩散过程系统性地、缓慢地破坏数据分布中的结构。随后我们学习一个反向扩散过程,恢复数据结构,从而获得对数据高度灵活且易于处理的生成模型。