PhotoDoodle艺术化图像编辑|Wan2.1成为最新视频生成SOTA|FractalGen分形自回归生图【AI周报】
PhotoDoodle艺术化图像编辑|Wan2.1成为最新视频生成SOTA|FractalGen分形自回归生图【AI周报】

摘要
本周亮点:PhotoDoodle少样本艺术化图像编辑;Wan2.1优化资源高效生成视频;K-LoRA无训练融合增强风格适配;FractalGen利用分形生成复杂结构;KV-Edit精准保持背景编辑图像;GHOST 2.0提升头部替换保真度。
目录
- PhotoDoodle:从少量示例学习艺术化图像编辑
- Wan2.1:阿里巴巴开源的大规模视频生成模型
- K-LoRA:解锁任意主题与风格 LoRA 的无训练融合
- FractalGen:递归自相似性的分形生成模型
- KV-Edit:无需训练的精确背景保持图像编辑
- GHOST 2.0:高保真单次头部替换生成模型
PhotoDoodle:从少量示例学习艺术化图像编辑

概要:PhotoDoodle 是由新加坡国立大学和字节跳动等机构联合提出的创新图像编辑框架,旨在通过少量示例学习,实现照片涂鸦的艺术化编辑。该方法采用两阶段训练策略,首先利用大规模数据训练通用的图像编辑模型 OmniEditor,然后通过 EditLoRA 在小规模艺术家策划的数据集上进行微调,以捕捉独特的编辑风格和技巧。为增强生成结果的一致性,作者引入了位置编码重用机制。此外,团队发布了包含六种高质量风格的 PhotoDoodle 数据集。实验结果表明,PhotoDoodle 在定制化图像编辑方面表现出色,拓展了艺术创作的新可能性。
标签:#图像编辑 #少样本学习 #艺术风格迁移 #OmniEditor #EditLoRA
Wan2.1:阿里巴巴开源的大规模视频生成模型

概要:Wan2.1 是由阿里通义实验室开源的大规模视频生成模型,旨在推动视频生成技术的发展。该模型在多个基准测试中表现优异,超越了现有的开源模型和商用解决方案。值得注意的是,Wan2.1 的 T2V-1.3B 模型仅需 8.19 GB 的显存,适用于大多数消费级 GPU,用户可以在本地环境中生成高质量视频。
标签:#视频生成 #大规模模型 #开源 #通义
K-LoRA:解锁任意主题与风格 LoRA 的无训练融合

概要:K-LoRA 是由南开大学视觉计算与智能感知实验室提出的一种创新方法,旨在实现任意主题与风格 LoRA(低秩适配)模型的无训练融合。传统方法在融合不同 LoRA 时,往往需要额外训练或难以同时保留主题和风格特征。K-LoRA 利用 LoRA 的内在属性,在每个注意力层中比较待融合 LoRA 的 Top-K 元素,确定最优融合策略。这种选择机制确保了在融合过程中,同时保留主题和风格的代表性特征。实验结果显示,K-LoRA 能有效整合原始 LoRA 学到的主题和风格信息,在定性和定量结果上均优于现有的训练方法。
标签:#K-LoRA #LoRA融合 #无训练融合 #主题与风格融合 #南开大学
FractalGen:递归自相似性的分形生成模型

概要:FractalGen 是由研究者何恺明团队的Tianhong Li等人提出的一种创新生成模型,灵感源自数学中的分形概念。该模型通过递归调用自身的生成模块,构建出具有自相似性的分形架构。在具体实现中,FractalGen 使用自回归模型作为基本生成模块,递归地进行像素级图像生成。实验结果显示,FractalGen 在似然估计和生成质量方面表现出色,特别是在高分辨率图像生成任务中展现了卓越的性能。该方法为生成模型的设计提供了新的视角,展示了模块化和递归策略在复杂任务中的潜力。
标签:#FractalGen #何恺明 #自相似性 #自回归模型 #图像生成
KV-Edit:无需训练的精确背景保持图像编辑

概要:KV-Edit 是由清华大学深圳国际研究生院提出的一种创新方法,旨在实现无需训练的精确背景保持图像编辑。该方法利用扩散模型中的键值缓存机制,在编辑过程中保留背景区域的键值对,仅对用户指定的前景区域进行重构,从而确保背景的一致性。与传统方法相比,KV-Edit 无需复杂的机制或昂贵的训练,即可实现高质量的图像编辑。实验结果表明,KV-Edit 在背景保持和图像质量方面显著优于现有方法,甚至超过了一些需要训练的技术。
标签:#图像编辑 #背景保持 #无需训练 #扩散模型 #清华大学
GHOST 2.0:高保真单次头部替换生成模型

概要:GHOST 2.0(Generative High-fidelity One Shot Transfer of Heads)是由 Sber AI 和 AIRI 联合开发的一种创新头部替换方法。该模型由两个专用模块组成:首先,增强的 Aligner 模型用于头部再现,能够在多个尺度上保持身份信息,并对极端姿态变化具有鲁棒性;其次,Blender 模块将再现的头部无缝融入目标背景,通过传递肤色和修复不匹配区域,实现自然融合。与面部替换相比,头部替换需要保留整个头部的结构信息,并填补头部与背景之间的空隙。GHOST 2.0 在这些方面表现出色,达到了头部替换任务的最新水平,甚至处理了源头与目标在发型上存在较大差异的复杂情况。
标签:#头部替换 #高保真生成 #头部再现 #图像融合 #GHOST2.0