英伟达发布可控图像编辑框架|字节跳动TextToon实时漫画化头像生成|Vivo推出HybridBooth个性化生成【AI周报】
英伟达发布可控图像编辑框架|字节跳动TextToon实时漫画化头像生成|Vivo推出HybridBooth个性化生成【AI周报】
!https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3a0efd56-5a31-4661-910b-55d91f9f82b0/width=450/33654117.jpeg
摘要
本期汇总展示了六个前沿AI项目,涵盖从图像、视频生成的创新。CtrlX提供无损图像编辑,PixelShuffler实现自监督图像去噪,TextToon推动漫画生成技术,HybridBooth聚焦个性化头像生成,其余论文及项目详见正文。
目录
- CtrlX: 可控图像编辑框架
- PixelShuffler: 高效的自监督图像去噪
- TextToon: 文本驱动的实时漫画化头像生成
- HybridBooth: 高效的个性化生成模型
- Pyramid-Flow: 高效的分层可逆生成模型
- Aria: 开源多模态专家模型
CtrlX: 可控图像编辑框架
!https://github.com/genforce/ctrl-x/raw/main/docs/assets/teaser_github.jpg
概要: CtrlX 是由 英伟达 和 UCLA 的研究人员开发的一个无训练、无引导的文本到图像生成框架。通过结合用户提供的结构和外观图片,CtrlX 实现了精确的结构对齐和语义感知的外观迁移。这一框架能够处理多种结构条件,包括自然图像、线框、3D网格等,还支持视频生成。其设计使得用户能够即时对接任意文本到图像(T2I)或文本到视频(T2V)扩散模型,无需额外训练。
标签: #AI #图像编辑 #扩散模型 #生成对抗网络 #深度学习
PixelShuffler: 高效的自监督图像去噪
!https://github.com/OmarSZamzam/PixelShuffler/raw/main/Figures/Demonstration.gif
概要: PixelShuffler 是由 南加大 提出的轻量级图像翻译方法,专注于图像去噪和风格迁移。该方法基于像素混洗(Pixel Shuffle)技术,通过重新排列目标图像中的像素,并与源图像进行信息互补,从而在不依赖复杂网络结构的情况下实现高效的图像转换。该技术可以广泛应用于风格迁移、图像去噪等图像翻译任务,甚至在医疗图像转换中也具有潜在的应用场景。
标签: #风格迁移 #图像去噪 #像素混洗 #自监督学习 #图像翻译
TextToon: 文本驱动的实时漫画化头像生成
!https://songluchuan.github.io/TextToon/static/images/TextToon_teaser.jpg
概要: TextToon 是由 字节跳动团队 提出的一个实时生成漫画风格头像的系统。该项目通过输入简短的单目视频和文本描述,生成可驱动的高保真卡通化头像。不同于依赖多视角建模的传统方法,TextToon 采用了基于条件嵌入的 Tri-plane 模型,在高斯变形场中学习面部表示,并结合自适应像素翻译网络和对比学习实现高质量图像生成。该系统在 GPU 机器上达到 48 FPS,而在移动设备上也能保持 15-18 FPS 的实时生成能力,展现了其在消费级应用中的潜力。
标签: #文本到图像 #卡通头像 #实时生成 #对比学习 #高斯变换
HybridBooth: 高效的个性化生成模型
!https://arxiv.org/html/2410.08192v1/x4.png
概要: HybridBooth 是由 Vivo公司 提出的一个创新框架,结合了优化和直接回归方法,用于 高效的个性化图像生成。该模型特别适用于通过文本提示生成基于特定主体的图像,称为 主体驱动的生成。HybridBooth 采用了两阶段的提示反演技术:首先通过词嵌入探测器生成稳健的初始词嵌入,然后在词嵌入细化器中进一步优化关键参数,使得从单张图像学习到的视觉概念能够被高效地反演至预训练扩散模型中。这种方法兼顾了模型的生成能力和个性化能力,在仅需少量训练的情况下,实现了高质量的个性化生成。
标签: #主体驱动生成 #提示反演 #扩散模型 #个性化图像生成
Pyramid-Flow: 高效的分层可逆生成模型
!https://arxiv.org/html/2410.05954v1/x1.png
概要: Pyramid-Flow 是由 北京大学、快手科技 和 北京邮电大学 联合推出的一个创新的高效视频生成模型。该模型基于 金字塔流匹配 算法,通过将视频生成过程分解为多层次的金字塔结构,逐层生成和解压缩视觉内容。这种方法显著降低了计算量,尤其适用于高分辨率视频的生成任务。Pyramid-Flow 可以生成高达 1280x768 分辨率、24 帧/秒 的视频,支持 文本到视频 和 图像到视频 的生成应用。
标签: #视频生成 #金字塔流 #高效生成 #高分辨率
Aria: 开源多模态专家模型
!https://rhymes.ai/images/blog/Aria-intro-10062024/AriaTopPoster.png
概要: Aria 是由 Rhymes AI 推出的 多模态原生混合专家模型 (MoE),能够处理文本、图像和视频等多种输入。该模型旨在为多模态任务提供最佳性能,并在文本理解、视频分析、文档处理等多个领域表现出色。Aria 的设计重点是高效计算和快速推理,仅使用 3.9B 激活参数,确保推理速度快且资源占用低。相比于现有的开源模型如 Pixtral-12B 和 Llama3.2-11B,Aria 在多模态任务中取得了更好的表现。
标签: #多模态AI #混合专家模型 #开源 #内容生成 #AI研究