JoyVASA突破多模态动画生成 | DINO-X定义开放世界检测 | StyleCodes实现风格编码迁移【AI周报】

neverbiasu大约 5 分钟

JoyVASA突破多模态动画生成 | DINO-X定义开放世界检测 | StyleCodes实现风格编码迁移【AI周报】

摘要

本周生成与检测技术亮点：JoyVASA 利用扩散模型实现音频驱动动画生成，支持人像与动物；DINO-X 面向开放世界目标检测，通过多模态提示提升长尾检测表现；StyleCodes 将图像风格编码为Base64格式，简化迁移过程并提升生成灵活性与质量。详情见正文。

JoyVASA：基于Diffusion模型的多模态动画生成
AnimateAnything: 用于生成视频的一致且可控的动画
EchoMimic V2：音频驱动的人像动画生成
WaLa：基于波形压缩的3D生成模型
DINO-X：开放世界目标检测的统一视觉模型
StyleCodes：基于编码的风格迁移框架

JoyVASA：基于Diffusion模型的多模态动画生成

概要：JoyVASA 是由 京东健康 和 浙江大学 联合开发的动画生成算法，结合Diffusion模型和Transformer架构，专注于音频驱动的表情与头部动作生成。其创新在于将动态动作与静态3D人脸解耦，允许生成长时间、高质量的动画，同时支持人像与动物动画。该方法还能利用多语言音频输入，生成与内容匹配的自然表情和动作。

标签：#动画生成 #多模态AI #Diffusion模型 #浙江大学 #TalkingHead

AnimateAnything: 用于生成视频的一致且可控的动画

概要：浙大CAD&CG重点实验室 联合提出了一种统一且可控的视频生成方法，通过将不同类型的控制信号（如物体运动、摄像机轨迹等）转换为统一的光流表示，以实现对视频生成过程中的精确控制。该方法采用多尺度控制特征融合网络构建通用运动表示，并利用频率稳定模块减少大规模运动导致的闪烁问题，确保视频的时间连贯性。实验结果表明，该方法在多种条件下均优于现有技术，展现出强大的泛化能力。

标签：#视频生成 #光流 #控制生成 #AdaLN #3D人脸

EchoMimic V2：音频驱动的人像动画生成

概要：EchoMimic V2 是由 蚂蚁集团 设计的一款音频驱动的数字人生成方法，支持通过音频、面部关键点或两者结合生成自然流畅的人像视频。通过创新的联合训练策略，系统实现了对音频信号和面部动态的高精度建模，解决了传统方法中音频驱动不稳定或关键点驱动动作不自然的问题。实验显示，其生成质量在多种基准数据集上优于现有方法。

标签：#音频驱动 #TalkingHead #蚂蚁集团 #多模态AI

概要：WaLa (Wavelet Latent Diffusion) 是由 Autodesk AI Lab 开发的3D生成模型，采用基于波形的紧凑潜在编码，将256³分辨率的3D形状压缩为12³×4的潜在网格，实现高达2427倍的压缩率，且细节损失最小。其Diffusion模型具备十亿级参数，支持条件与无条件的高效生成，生成时间仅需2至4秒。WaLa 显著提升了3D生成的质量、效率和多样性，并支持多视图图像、文本提示和点云等多种输入。

标签：#3D生成 #Diffusion模型 #波形压缩 #Autodesk AI Lab

DINO-X：开放世界目标检测的统一视觉模型

概要：DINO-X 是由 IDEA Research 研发的一种开放世界目标检测模型，基于 Transformer 编解码架构，通过融合文本、视觉和自定义提示，支持开放词汇目标检测。模型利用了超过1亿高质量数据集（Grounding-100M）进行预训练，显著提升了长尾目标检测能力。在多个基准测试中，DINO-X 实现了SOTA性能，包括在 COCO 和 LVIS 数据集上的检测表现，并在稀有类别识别任务中有显著突破。

标签：#目标检测 #开放世界AI #Transformer #IDEA Research #GroundingDINO

StyleCodes：基于编码的风格迁移框架

概要：StyleCodes 是由 Ciara Rowles 提出的创新风格迁移框架，能够将图像风格编码为20字符的Base64格式（style-reference codes, srefs），以简化风格迁移的过程。通过使用潜变量自动编码器和UNet控制模块，StyleCodes 提供了一种高效且开放的风格控制方法，适合图像到图像、文本到图像等生成任务。实验显示，该方法在灵活性和生成质量上均表现优异。

标签：#风格迁移 #Diffusion模型 #图像生成 #图像编码

JoyVASA突破多模态动画生成 | DINO-X定义开放世界检测 | StyleCodes实现风格编码迁移【AI周报】

JoyVASA突破多模态动画生成 | DINO-X定义开放世界检测 | StyleCodes实现风格编码迁移【AI周报】

摘要

目录

JoyVASA：基于Diffusion模型的多模态动画生成

AnimateAnything: 用于生成视频的一致且可控的动画

EchoMimic V2：音频驱动的人像动画生成

WaLa：基于波形压缩的3D生成模型

DINO-X：开放世界目标检测的统一视觉模型

StyleCodes：基于编码的风格迁移框架

参考链接