OmniStyle统一风格迁移 | BAGEL开源实现了GPT Image | NovelSeek构建科研多智能体闭环【AI周报】
OmniStyle统一风格迁移 | BAGEL开源实现了GPT Image | NovelSeek构建科研多智能体闭环【AI周报】

摘要
本周亮点:OmniStyle发布百万级风格迁移数据集;Index-AniSora开源二次元视频生成系统;MMaDA实现统一多模态扩散架构;Dolphin革新文档解析效率;NovelSeek构建科研自动化闭环;BAGEL开源GPT Image级多模态模型。
目录
- OmniStyle:大规模高质量风格迁移数据集与统一生成框架
- Index-AniSora:B站开源二次元视频生成系统,强化学习驱动高质量动画生成
- MMaDA:首个统一多模态扩散大模型,融合推理与生成能力
- Dolphin:字节跳动推出文档图像解析模型,采用异构锚点提示策略
- NovelSeek:Alpha-Innovator发布的多智能体科研闭环系统,实现自动化创新与验证
- BAGEL:字节跳动开源统一多模态模型,具备生成、理解与编辑能力
OmniStyle:大规模高质量风格迁移数据集与统一生成框架

概要:OmniStyle 是由 吉林大学 携手 字节跳动 及 Adobe 提出的风格迁移系统,包含超过 100 万个内容-风格-结果三元组的 OmniStyle-1M 数据集,涵盖 1000 种风格类别,并配有文本描述和指令提示。为确保数据质量,作者引入了 OmniFilter 框架,从内容保留、风格一致性和美学吸引力等方面筛选高质量样本。基于此,提出了基于 Diffusion Transformer 架构的 OmniStyle 模型,支持指令引导和图像引导的风格迁移,生成高分辨率且细节丰富的图像。实验结果表明,OmniStyle 在多个基准测试中表现优异,展示了其高效性和多样性。
标签:#风格迁移 #大规模数据集 #Diffusion Transformer #高分辨率生成 #指令引导
Index-AniSora:B站开源二次元视频生成系统,强化学习驱动高质量动画生成

概要:Index-AniSora 是由 哔哩哔哩(Bilibili) 发布的开源二次元视频生成系统,基于 AniSora 框架支持番剧、国创、VTuber等多种动画风格生成。系统引入时空掩码机制实现图像到视频生成、帧插值等功能,并构建了包含30,000条人工标注样本的动画奖励数据集,涵盖视觉平滑度、运动感、文本一致性等六个维度。基于此提出 AnimeReward 奖励模型和差距感知偏好优化算法(GAPO),显著提升模型对人类偏好的拟合能力,该系统已被IJCAI 2025接收。
标签:#动画视频生成 #二次元内容创作 #强化学习 #人类偏好对齐 #开源项目
MMaDA:首个统一多模态扩散大模型,融合推理与生成能力

概要:MMaDA(Multimodal Large Diffusion Language Models) 是由 普林斯顿大学、字节跳动 Seed、北京大学和清华大学 等机构联合提出的多模态扩散基础模型,统一处理文本推理、多模态理解和文本到图像生成任务。系统引入统一扩散架构、混合长链式思维(Mixed Long CoT)微调策略和统一强化学习算法 UniGRPO,通过共享概率公式和模态无关设计实现跨模态无缝集成。实验显示 MMaDA-8B 在文本推理任务中超越 LLaMA-3-7B 和 Qwen2-7B,在多模态理解任务中优于 Show-o 和 SEED-X,在文本到图像生成任务中超过 SDXL 和 Janus,展现了强大的统一多模态处理能力。
标签:#多模态模型 #扩散模型 #统一架构 #文本推理 #图像生成 #强化学习
Dolphin:字节跳动推出文档图像解析模型,采用异构锚点提示策略

概要:Dolphin 是由 字节跳动 发布的文档图像解析模型,采用"分析-再解析"双阶段架构高效处理包含文本段落、图表、公式和表格等复杂元素的文档图像。模型首先生成阅读顺序中的布局元素序列作为异构锚点,然后结合任务特定提示词对锚点进行并行内容解析。系统在超过 3000 万样本的大规模数据集上训练,涵盖多粒度解析任务,具备轻量化架构和并行解析机制,在多个基准测试中表现优异并显著提升解析效率。AI周报】
标签:#文档图像解析 #异构锚点提示 #布局分析 #内容解析 #开源模型
NovelSeek:Alpha-Innovator发布的多智能体科研闭环系统,实现自动化创新与验证

概要:NovelSeek 是由 Alpha-Innovator 团队发布的多智能体科研自动化平台,构建从假设生成到实验验证的闭环科研流程,支持反应产率预测、分子动力学、增强子活性预测、图像分割等 12 类科学任务。系统集成 Idea Innovation Agent(利用大语言模型生成多样化科研假设)、Code Review Agent(自动分析基准代码并识别改进点)、Assessment Agent(从一致性、可信度、新颖性等维度评估科研方案)和 Orchestration Agent(协调各智能体工作流程)四大核心组件。实验显示该平台在反应产率预测准确率从 27.6% 提升至 35.4%,增强子活性预测准确率从 0.52 提升至 0.79,2D 语义分割精度从 78.8% 提升至 81.0%,显著提升科研效率与创新能力。
标签:#科研自动化 #多智能体系统 #假设生成 #实验验证 #开源平台
BAGEL:字节跳动开源统一多模态模型,具备生成、理解与编辑能力

概要:BAGEL 是由 字节跳动 Seed 团队 发布的开源多模态基础模型,采用 Mixture-of-Transformer-Experts (MoT) 架构,具备 7B 活跃参数(总计 14B),支持文本、图像、视频等多模态数据的理解与生成。模型通过大规模交错多模态数据的预训练,展现出复杂多模态推理能力,包括自由图像编辑、未来帧预测、3D 操作和世界导航等任务。实验结果显示,BAGEL 在多模态理解和生成任务上均优于现有开源模型,展现出强大的统一多模态处理能力。
标签:#多模态模型 #图像生成 #图像编辑 #世界建模 #推理能力 #开源模型