TANGO赋能数字人|ADD-IT重构图像编辑|MikuDance动漫角色舞蹈动画【AI周报】
TANGO赋能数字人|ADD-IT重构图像编辑|MikuDance动漫角色舞蹈动画【AI周报】

摘要
本周聚焦多模态AI发展:TANGO创新语音驱动手势视频;StoryTeller支持长视频剧情生成;ADD-IT无训练对象插入;MikuDance合成动漫角色舞蹈;LLaMA-Mesh统一3D网格与语言模型。其余详见正文。
目录
- TANGO: 联合语音驱动的手势重演模型
- StoryTeller: 长视频描述与角色识别模型
- ADD-IT: 无需训练的图像对象插入方法
- MikuDance: 基于Diffusion模型的卡通角色动画生成
- MagicQuill: 智能交互式图像编辑系统
- LLaMA-Mesh: 大模型驱动的 3D Mesh生成
TANGO: 联合语音驱动的手势重演模型
!https://arxiv.org/html/2410.04221v1/x1.png
TANGO Teaser 图
概要: TANGO 是 东京大学 提出的一种生成与语音同步身体手势视频的新算法。它通过改进手势视频重现(GVR)技术解决了音频-动作不同步和GAN生成过渡帧中的视觉伪影问题。TANGO利用基于潜特征距离的手势检索来提高跨模态对齐,并采用名为AuMoCLIP的层次联合嵌入空间。此外,TANGO引入了基于Diffusion模型的外观一致插值(ACInterp)来生成平滑过渡帧,确保生成视频与参考视频之间的一致性。通过这些改进,TANGO能够生成更加自然流畅、与音频高度同步的视频内容。
标签: #手势视频生成 #音频-动作同步 #Diffusion模型 #跨模态对齐 #视频过渡帧
StoryTeller: 长视频描述与角色识别模型
!https://arxiv.org/html/2411.07076v1/x1.png
StoryTeller Pipeline 图
概要: StoryTeller 是由 浙江大学 和 阿里巴巴达摩院 合作开发的一个长时段视频描述生成系统。该系统利用了多模态大型语言模型 (LVLM),集成了视觉、音频和文本模态,通过音视频角色识别 (Audio-Visual Character Identification)提高剧情描述的连贯性和准确性。StoryTeller 能够处理分钟级别的长视频片段,并引入了 MovieStory101 数据集,专门用于评估模型在剧情描述任务中的表现。实验显示,该系统在 MovieQA 测试中,比现有的最强Baseline模型提升了 9.5% 的准确率,并在用户评估中表现出明显优势。
标签: #视频描述 #多模态模型 #角色识别 #电影分析 #长视频处理
ADD-IT :无需训练的图像对象插入方法
!https://research.nvidia.com/labs/par/addit/static/images/Architecture.png
ADD-IT Architecture 图
概要: ADD-IT 是由 NVIDIA 和 Tel Aviv University 联合开发的一种无需训练的图像对象插入方法。ADD-IT 基于预训练的Diffusion模型,能够从文本提示中插入新对象到图像中,无需进行额外的微调训练。其创新在于加权扩展注意力机制 (Weighted Extended-Attention Mechanism),结合了来自原始场景图像、文本提示和生成图像的信息。这一方法通过结构传递 (Structure Transfer)和主体引导潜变量融合 (Subject Guided Latent Blending),确保插入对象与背景的结构一致性和细节保留。
标签: #图像编辑 #对象插入 #Diffusion模型 #NVIDIA #结构一致性
MikuDance: 基于Diffusion模型的卡通角色动画生成
!https://kebii.github.io/MikuDance/static/images/method_overview.png
MikuDance Overview 图
概要: MikuDance 是一个由 武汉大学、阶跃星辰 和 字节跳动 联合提出的 Diffusion模型驱动的动画生成系统,专为卡通化角色和个性化角色艺术动画设计。该系统的核心创新包括 Mixed Motion Modeling 和 Mixed-Control Diffusion 两大模块,旨在解决角色动画中的高动态运动和参考引导错位等挑战。项目采用了 Scene Motion Tracking 技术,实现了角色与场景的统一动态建模,并通过 Motion-Adaptive Normalization 模块,灵活控制本地和全局的运动细节。
标签: #Diffusion模型 #动画合成 #3D动画 #卡通艺术 #虚拟偶像
MagicQuill: 智能交互式图像编辑系统
!https://magicquill.art/demo/gallery/mona%20lisa%20cat.gif
MagicQuill Demo 图
概要: MagicQuill 是 港科技、蚂蚁集团、浙大 和 港大 发布一个智能交互式图像编辑算法,它能够高效实现创意想法。该系统拥有简洁而功能强大的界面,用户可以通过最少的输入完成复杂的编辑操作,如插入元素、擦除物体和改变颜色等。系统采用多模态大语言模型(MLLM)实时预测用户的编辑意图,无需明确输入指令。为了精确处理编辑请求,MagicQuill 使用了一个经过精心训练的双分支插件模块增强的强效Diffusion先验。实验结果表明,MagicQuill 能够实现高质量的图像编辑效果。
标签: #MagicQuill #交互式图像编辑 #多模态大语言模型 #Diffusion先验 #图像处理
LLaMA-Mesh: 大模型驱动的 3D Mesh生成
!https://arxiv.org/html/2411.09595v1/x1.png
LLaMA-Mesh Illustration 图
概要: LLaMA-Mesh 是由 NVIDIA Toronto AI Lab推出的一个创新框架,旨在扩展大型语言模型 (LLM) 的能力,使其能够生成 3D Mesh。LLaMA-Mesh 利用了预训练 LLM 中的空间知识,并通过将 3D Mesh的顶点坐标和面定义表示为纯文本,解决了 3D 数据标记化的挑战。这种表示方式允许 3D 数据与 LLM 无缝集成,且无需扩展模型的词汇表。
该项目提出了一种监督微调数据集,支持预训练的 LLM (如 LLaMA) 执行以下任务:(1) 根据文本提示生成 3D Mesh;(2) 生成交错的文本和 3D Mesh输出;(3) 理解并解释 3D Mesh结构。实验表明,LLaMA-Mesh 在生成质量上达到了与从头训练的 3D 模型相当的效果,同时仍保持了强大的文本生成能力。
标签: #LLM #3D生成 #Mesh表示 #NVIDIA #多模态集成