DnD零训练LoRA权重生成 | OmniGen2多模态统一理解与生成 | Hunyuan3D-2.5高保真3D模型生成【AI周报】
DnD零训练LoRA权重生成 | OmniGen2多模态统一理解与生成 | Hunyuan3D-2.5高保真3D模型生成【AI周报】

摘要
本周两点:DnD零训练LoRA高效适配、OmniGen2多模态统一生成、ShareGPT-4o-Image开放多模态、JarvisArt智能修图、Hunyuan3D-2.5高保真3D生成、3D Arena人类偏好评测。相关参考链接请见文末。
目录
- DnD(Drag-and-Drop LLMs):零训练生成 LoRA 参数的高效适配工具
- OmniGen2:统一多模态生成与理解基础模型
- ShareGPT‑4o‑Image / Janus‑4o‑7B:开放 GPT‑4o 图像生成能力的多模态 LLM
- JarvisArt:智能照片修图代理解放创意潜力
- Hunyuan3D‑2.5:终极高保真3D资产生成系统
- 3D Arena:开放平台主导的人类评价驱动的生成式3D评测体系
DnD(Drag-and-Drop LLMs):零训练生成 LoRA 参数的高效适配工具

概要:DnD(Drag-and-Drop LLMs)由新加坡国立大学、德州大学奥斯汀分校、圣加仑大学和牛津大学等联合提出,是一种无需微调即可快速适配大语言模型的全新方法。该方法通过一个轻量级文本编码器 + 级联超卷积解码器,以输入 prompt 的形式生成 LoRA 参数。不依赖训练数据,仅凭未标注提示即可在数秒内完成参数生成,适用于各种任务如常识推理、数学、编程和多模态理解与生成等。与传统 LoRA 微调比,DnD 可提供最高 12,000 倍 的时间与计算效率提升,并在未见任务上取得约 30% 的性能提升。
标签:#LLM适配 #LoRA生成 #Prompt机制 #ZeroShot #混合专家
OmniGen2:统一多模态生成与理解基础模型

概要:OmniGen2 是由 VectorSpaceLab 发布的全开放源多模态生成模型,融合视觉理解、文本生成、图像编辑与 In-Context 生成等任务。其核心架构采用解耦路径设计:文本采用自回归 Transformer,图像采用扩散生成 Transformer,并使用独立的图像 tokenizer。该设计既保留了强大的语言生成能力,又实现了高保真的图像输出。此外,OmniGen2 引入了“反思机制”——模型可分析与批评自身输出并迭代优化,并基于视频构建丰富的多模态训练数据集,特别针对图像编辑和 In‑Context 任务建立 OmniContext 基准。
标签:#多模态生成 #图像编辑 #InContext生成 #反思机制 #Transformer
ShareGPT‑4o‑Image / Janus‑4o‑7B:开放 GPT‑4o 图像生成能力的多模态 LLM

概要:ShareGPT‑4o‑Image 是一个规模约 9.2 万条,由 GPT‑4o 生成并整理的高质量图像生成数据集(包括文本生成图像 4.57 万条、图像指导图像 4.65 万条),旨在将 GPT‑4o 的图像理解与生成能力带入开源生态 。基于此数据集,Janus‑4o‑7B 在 Janus‑Pro‑7B 基础上进一步强化,新增支持图像到图像生成(image-to-image),并大幅提升了文本到图像(text-to-image)任务的表现。据官方报告,在 GenEval 和 DPG-Bench 等基准上分别取得显著提升,并在 ImgEdit-Bench 显著超越多个主流开源模型,全部训练仅需 6 小时(8×A800 GPU) 。
标签:#多模态生成 #图像编辑 #LLM微调 #GPT‑4o能力
JarvisArt:智能照片修图代理解放创意潜力

概要:JarvisArt 是由 厦门大学、香港科技大学(广州)、中大、字节跳动、新加坡国立大学 与 清华大学 联合开发的多模态大型语言模型驱动修图工具。该系统模拟专业修图师的思维,使用 200+ Lightroom 工具,结合 Chain‑of‑Thought 微调和 Group Relative Policy Optimization(GRPO‑R)策略进行增强微调,实现对图像的全局与局部细致调整。通过建立新 benchmark(MMArt‑Bench)评估,JarvisArt 在保留内容的一致性上较 GPT‑4o 提升约 60%,同时保持优良的指令解析能力,展现出用户友好、高度通用的照片处理潜力。
标签:#智能修图 #MLLM #增强推理 #LLM代理 #ChainOfThought
Hunyuan3D‑2.5:终极高保真3D资产生成系统

概要:Hunyuan3D‑2.5 是腾讯混元团队最新发布的高保真3D生成系统,其核心为两阶段架构:形状生成的 LATTICE 模型和基于多视角的 PBR 材质纹理合成。该系统配备最高达10B参数的扩散模型,实现对几何结构和纹理细节的双重飞跃。相较于 Hunyuan3D‑2.0/2.1,2.5 版在几何精度提升约15%、纹理保真提高约20%、生成时间降低25%,并支持自动绑定功能,生成一个完整3D网格+纹理的流程仅需数十秒。社区用户在 Reddit 中讨论其在处理汽车零件/尖锐边缘方面性能卓越,但复杂有机结构略显尖锐。
标签:#3D生成 #扩散模型 #PBR材质 #高保真 #自动绑定
3D Arena:开放平台主导的人类评价驱动的生成式3D评测体系

概要:3D Arena 是由 Dylan Ebert(Hugging Face)团队推出的一种针对图像到 3D 生成模型的评测平台,填补了自动指标无法反映真实用户体验的痛点。自 2024 年 6 月上线以来,平台已收集超 12 万组配对偏好投票,覆盖 8,096 名用户、19 种主流模型,通过 ELO 排位系统和人类偏好建立最具权威性的 3D 生成质量排行榜。平台还发布了包含 100 条评测提示的 iso3d 数据集,并采用统计防作弊机制保证用户真实性达 99.75%。数据分析显示,人们更青睐于含纹理模型(比无纹理高出 144.1 ELO),以及使用 Gaussian splats 表示的点云相比传统网格表现更好(+16.6 ELO)。3D Arena 成为业界标杆,激发了多项关于评估指标、任务导向评测与格式感知对比的最佳实践。
标签:#3D生成 #人类偏好评测 #ELO排名 #iso3d #评测平台
参考链接
- DnD(Drag-and-Drop LLMs)项目页面
- DnD(Drag-and-Drop LLMs)论文
- OmniGen2 项目页面
- OmniGen2 Github 仓库
- OmniGen2 论文
- ShareGPT‑4o‑Image Github 仓库
- Janus‑4o‑7B Hugging Face
- Janus‑4o‑7B 论文
- Janus‑4o‑7B Hugging Face Spaces 演示
- JarvisArt 在线演示
- JarvisArt Github 仓库
- JarvisArt 论文
- Hunyuan3D‑2.5 论文(arxiv)
- Hunyuan3D‑2.5 Github 仓库
- 3D Arena Hugging Face Spaces
- 3D Arena 论文