JoyVASA突破多模态动画生成 | DINO-X定义开放世界检测 | StyleCodes实现风格编码迁移【AI周报】
JoyVASA突破多模态动画生成 | DINO-X定义开放世界检测 | StyleCodes实现风格编码迁移【AI周报】

摘要
本周生成与检测技术亮点:JoyVASA 利用扩散模型实现音频驱动动画生成,支持人像与动物;DINO-X 面向开放世界目标检测,通过多模态提示提升长尾检测表现;StyleCodes 将图像风格编码为Base64格式,简化迁移过程并提升生成灵活性与质量。详情见正文。
目录
- JoyVASA:基于Diffusion模型的多模态动画生成
- AnimateAnything: 用于生成视频的一致且可控的动画
- EchoMimic V2:音频驱动的人像动画生成
- WaLa:基于波形压缩的3D生成模型
- DINO-X:开放世界目标检测的统一视觉模型
- StyleCodes:基于编码的风格迁移框架
JoyVASA:基于Diffusion模型的多模态动画生成

概要:JoyVASA 是由 京东健康 和 浙江大学 联合开发的动画生成算法,结合Diffusion模型和Transformer架构,专注于音频驱动的表情与头部动作生成。其创新在于将动态动作与静态3D人脸解耦,允许生成长时间、高质量的动画,同时支持人像与动物动画。该方法还能利用多语言音频输入,生成与内容匹配的自然表情和动作。
标签:#动画生成 #多模态AI #Diffusion模型 #浙江大学 #TalkingHead
AnimateAnything: 用于生成视频的一致且可控的动画
概要:浙大CAD&CG重点实验室 联合提出了一种统一且可控的视频生成方法,通过将不同类型的控制信号(如物体运动、摄像机轨迹等)转换为统一的光流表示,以实现对视频生成过程中的精确控制。该方法采用多尺度控制特征融合网络构建通用运动表示,并利用频率稳定模块减少大规模运动导致的闪烁问题,确保视频的时间连贯性。实验结果表明,该方法在多种条件下均优于现有技术,展现出强大的泛化能力。
标签:#视频生成 #光流 #控制生成 #AdaLN #3D人脸
EchoMimic V2:音频驱动的人像动画生成

概要:EchoMimic V2 是由 蚂蚁集团 设计的一款音频驱动的数字人生成方法,支持通过音频、面部关键点或两者结合生成自然流畅的人像视频。通过创新的联合训练策略,系统实现了对音频信号和面部动态的高精度建模,解决了传统方法中音频驱动不稳定或关键点驱动动作不自然的问题。实验显示,其生成质量在多种基准数据集上优于现有方法。
标签:#音频驱动 #TalkingHead #蚂蚁集团 #多模态AI
WaLa:基于波形压缩的3D生成模型

概要:WaLa (Wavelet Latent Diffusion) 是由 Autodesk AI Lab 开发的3D生成模型,采用基于波形的紧凑潜在编码,将256³分辨率的3D形状压缩为12³×4的潜在网格,实现高达2427倍的压缩率,且细节损失最小。其Diffusion模型具备十亿级参数,支持条件与无条件的高效生成,生成时间仅需2至4秒。WaLa 显著提升了3D生成的质量、效率和多样性,并支持多视图图像、文本提示和点云等多种输入。
标签:#3D生成 #Diffusion模型 #波形压缩 #Autodesk AI Lab
DINO-X:开放世界目标检测的统一视觉模型

概要:DINO-X 是由 IDEA Research 研发的一种开放世界目标检测模型,基于 Transformer 编解码架构,通过融合文本、视觉和自定义提示,支持开放词汇目标检测。模型利用了超过1亿高质量数据集(Grounding-100M)进行预训练,显著提升了长尾目标检测能力。在多个基准测试中,DINO-X 实现了SOTA性能,包括在 COCO 和 LVIS 数据集上的检测表现,并在稀有类别识别任务中有显著突破。
标签:#目标检测 #开放世界AI #Transformer #IDEA Research #GroundingDINO
StyleCodes:基于编码的风格迁移框架

概要:StyleCodes 是由 Ciara Rowles 提出的创新风格迁移框架,能够将图像风格编码为20字符的Base64格式(style-reference codes, srefs),以简化风格迁移的过程。通过使用潜变量自动编码器和UNet控制模块,StyleCodes 提供了一种高效且开放的风格控制方法,适合图像到图像、文本到图像等生成任务。实验显示,该方法在灵活性和生成质量上均表现优异。
标签:#风格迁移 #Diffusion模型 #图像生成 #图像编码
参考链接
- HiCo-T2I 项目主页
- HiCo-T2I GitHub 仓库
- HiCo-T2I 论文
- HiCo-T2I 模型(Hugging Face)
- Hunyuan3D-1 GitHub 仓库
- Hunyuan3D-1 模型(Hugging Face)
- Hunyuan3D-1 项目介绍 PDF
- AutoVFX 项目主页
- AutoVFX GitHub 仓库
- AutoVFX 论文
- HelloMeme 项目主页
- HelloMeme GitHub 仓库
- HelloMeme 论文
- MVPaint 项目主页
- MVPaint GitHub 仓库
- MVPaint 论文
- PromptFix 项目主页
- PromptFix GitHub 仓库
- PromptFix 论文
- DomainGallery GitHub 仓库
- DomainGallery 论文