NextStep-1 发布 | UniPic-2 升级多模态生成 | StableAvatar 推出长时人像视频【AI周报】
NextStep-1 发布 | UniPic-2 升级多模态生成 | StableAvatar 推出长时人像视频【AI周报】

摘要
本周亮点:StepFun 推出 NextStep-1 优化大模型训练与推理;Skywork 发布 UniPic-2 强化跨模态生成与编辑;复旦/微软等发布 StableAvatar,实现高保真无限时长音频驱动人像视频。详见正文,相关参考链接请见文末。
目录
- UniPic 2.0:一体化视觉理解与编辑升级模型
- NextStep-1:大规模连续-token-自回归图像生成模型
- Story2Board:训练免疫电影级故事板生成系统
- Voost:推出统一虚拟试穿与脱下框架
- ToonComposer:卡通制作一体化生成模型
- Echo-4o:多校联合打造的 GPT-4o 合成图像大数据与模型增强框架
- StableAvatar:无限长度音频驱动化身视频系统
UniPic 2.0:一体化视觉理解与编辑升级模型

概要:UniPic 2.0 是由 天工AI多模态团队推出的第二代统一视觉模型,基于 Qwen2.5-VL-Instruct 与 SD3.5-Medium 架构,内置“理解—生成—编辑”三合一能力框架。该版本通过 Flow-GRPO 强化学习 同步优化生成与编辑任务,显著提升文本渲染与编辑一致性,展现出比 Bagel、UniWorld-V1 等更优的多任务表现。尽管模型参数仅为 2B,仍在多个基准测试中取得 SOTA 级成绩,展示了极佳的效率与扩展性。
标签:#统一视觉模型 #生成与编辑融合 #强化学习优化 #高效低参 #天工AI
NextStep-1:大规模连续 token 自回归图像生成模型

概要:NextStep-1 是由**NextStep Team(StepFun 团队)**提出的一款具有 14B 参数的自回归图像生成模型,配备一个 157M 参数的 Flow Matching 头。它首次将“离散文本 token 与连续图像 token”进行统一的 next-token 预测学习,显著提高了图像合成质量和编辑性能,在文本到图像任务中达成 SOTA 水平,并展示了强大的图像编辑能力。同时,官方计划开放代码与模型,推动社区研究发展。
标签:#自回归图像生成 #连续图像Token #FlowMatching头 #高保真生成 #阶跃星辰
Story2Board:训练免疫电影级故事板生成系统

概要:Story2Board 提出“训练免疫”故事板流程:由 LLM Director 将长叙事分解为一个共享参考面板提示与逐帧场景提示以统一角色外观;在生成批次内用 LPA(Latent Panel Anchoring) 配合并行去噪,用共享参考面板区域替换对应潜变量区域以强制跨面板的低频与结构一致性;并通过 RAVM(Reciprocal Attention Value Mixing) 在自注意力的 value 空间按 token 级别混合参考与目标表征,强化细粒度外观(如表情、手型)而不改动生成布局。整体流程为:LLM 分解提示 → 批量同步 LPA+RAVM 去噪 → 解码与裁切,在不改动基础扩散模型或额外微调的前提下提升角色一致性与细节保真。
标签:#故事板生成 #训练免疫 #角色一致性 #视觉叙事 #DiT
Voost:推出统一虚拟试穿与脱下框架

概要:Voost 是由 NXN Labs 提出的一种创新的扩散 Transformer 模型,能够同时处理虚拟“试穿”(try-on)与“试下”(try-off)任务。该模型通过将服饰图与人体图像在空间上水平拼接,实现统一条件输入,从而增强服装与人体间的对应关系,无需额外网络结构或标签辅导。模型还引入两个推理阶段策略:attention 温度调整以应对分辨率或遮挡变化,以及自我纠错采样增强两向一致性,显著提升细节对齐与视觉逼真度。大量基准测试显示,Voost 在两项任务上均超越现有方法,质量、通用性与鲁棒性全面领先。
标签:#虚拟试穿 #DiffusionTransformer #统一生成 #任务互监督 #视觉一致性
ToonComposer:卡通制作一体化生成模型

概要:ToonComposer 由 Tencent ARC 实验室(腾讯 PCG)与香港中文大学联合提出,是一个开创性的生成模型,融合了动画中的“补间”(inbetweening)与“上色”(colorization)两个关键阶段于一个“后关键帧生成”步骤中。模型采用稀疏素描注入技术,仅需极少关键帧素描与一帧彩色参考即可生成连贯、风格一致的卡通动画;同时引入 **空间低秩适配器(SLRA)**针对动画领域进行模型微调,在保留 DiT 视频模型的时间一致性前提下,实现视觉样式定制。此外,支持区域控制、灵活输入等增强功能,通过新构建的 PKBench 基准数据集进行评估,结果表明在视觉质量、运动连贯性及制作效率方面全面领先。
标签:#卡通动画生成 #补间与上色整合 #稀疏素描控制 #空间低秩适配 #腾讯 ARC
Echo-4o:多校联合打造的 GPT-4o 合成图像大数据与模型增强框架

概要:Echo-4o 由中科大、香港中文大学和中山大学等机构合作提出的统一模型,是对 Bagel 进行微调后得到的模型,在 Imag-Guided、GenEval、DPG-Bench 及新提出的 “GenEval++” 和 “Imagine-Bench” 等基准上表现均达最新水平;同一合成数据集用于其他模型(如 OmniGen2、BLIP3-o)也能带来稳定的性能提升,证明了其强大的泛化能力与迁移价值。Echo-4o-Image 是一个由 GPT-4o 生成的合成图像数据集,包含 180K 条覆盖稀有场景的样本,分为“奇幻风(38K)”、“多参考图像(73K)”与“复杂指令执行(68K)”三类。
标签:#GPT-4o合成数据 #幻想图像生成 #多参考融合 #复杂指令理解 #模型微调提升
StableAvatar:无限长度音频驱动化身视频系统

概要:StableAvatar 由 复旦大学、微软亚洲研究院、西安交通大学和腾讯联合团队共同研发,是首套端到端视频扩散 Transformer 模型,支持从单张参考图像与音频输入生成 无限长度、高保富同步度与身份一致性的人像视频。模型创新引入了 Time-step-aware Audio Adapter 以防止音频信号误差累积以及 Audio Native Guidance 机制增强音画对齐,还采用动态加权滑动窗口策略确保视频平滑性。实验结果表明其在无后处理情况下、持续数分钟的视频生成中始终保持质量稳定与人物身份准确。
标签:#无缝音频同步 #音频适配器 #无限时长 #扩散Transformer #高身份一致性
参考链接
- UniPic 2.0 项目主页
- UniPic 2.0 Github 仓库
- UniPic 2.0 论文 PDF
- UniPic 2.0 Hugging Face Demo
- NextStep-1 项目主页
- NextStep-1 Github 仓库
- NextStep-1 论文
- Story2Board 项目主页
- Story2Board Github 仓库
- Story2Board 论文
- Voost 项目主页
- Voost Github 仓库
- Voost 论文
- ToonComposer 项目主页
- ToonComposer Github 仓库
- ToonComposer 论文
- Echo-4o 项目主页
- Echo-4o Github 仓库
- Echo-4o 论文
- StableAvatar 项目主页
- StableAvatar Github 仓库
- StableAvatar 论文