GLM-4.1V-9B-Thinking刷榜多模态理解 | OCRFlux-3B突破文档理解 | 百度开源ERNIE-4.5系列【HF周报】
GLM-4.1V-9B-Thinking刷榜多模态理解 | OCRFlux-3B突破文档理解 | 百度开源ERNIE-4.5系列【HF周报】

摘要
本周亮点:GLM-4.1V-9B-Thinking多模态推理、OCRFlux-3B文档视觉理解、DiffuCoder-7B-cpGRPO代码智能等模型引发热议,涵盖视觉理解、OCR、代码、Agent等方向。详见正文,相关参考链接请见文末。
目录
- GLM-4.1V-9B-Thinking:多模态推理与视觉理解新突破
- OCRFlux-3B:文档视觉理解与OCR新突破
- Ovis-U1-3B:通用多模态推理与生成
- DiffuCoder-7B-cpGRPO:高效代码生成与理解
- DeepSeek-TNG-R1T2-Chimera:多语言Agent与推理
- DeepSWE-Preview:软件工程Agent模型
- ERNIE-4.5-21B-A3B-PT:百度新一代ERNIE大模型
- jina-embeddings-v4:高效通用嵌入模型
GLM-4.1V-9B-Thinking:多模态推理与视觉理解新突破

概要:清华大学THUDM团队发布 GLM-4.1V-9B-Thinking,采用多层次视觉-语言对齐与推理增强机制,9B参数,支持复杂图像理解、视觉问答、多模态推理等任务。模型具备高效的视觉感知与推理能力,适配多种推理框架,广泛应用于教育、科研、智能问答等场景。
标签:#THUDM #GLM41V #多模态推理 #视觉理解 #视觉问答
OCRFlux-3B:文档视觉理解与OCR新突破

概要:ChatDOC 团队发布 OCRFlux-3B,采用多层Transformer架构与视觉-文本联合预训练,专为文档视觉理解与结构化OCR设计,具备3B参数,支持表格、公式、复杂文档结构识别,兼容多语言与多格式输入。模型在多项文档理解基准上表现优异,推理速度快,适配 Transformers、vLLM 等主流推理框架,适合金融、法律、学术等场景。
标签:#ChatDOC #OCRFlux3B #文档视觉理解 #结构化OCR #多语言
Ovis-U1-3B:通用多模态推理与生成

概要:AIDC-AI 发布 Ovis-U1-3B,采用自研多模态融合模块和跨模态对齐机制,3B参数的通用多模态模型,支持文本、图像、表格等多模态输入,具备推理、生成、理解等能力。模型在多模态问答、内容生成、数据分析等任务上表现突出,支持灵活扩展,适配多种推理框架。
标签:#AIDCAI #OvisU13B #多模态推理 #跨模态生成 #创新架构
DiffuCoder-7B-cpGRPO:高效代码生成与理解

概要:苹果发布 DiffuCoder-7B-cpGRPO,基于Diffusion Transformer架构,结合cpGRPO(条件概率梯度优化)技术,7B参数的高效代码生成与理解模型。模型支持多种主流编程语言,具备上下文感知与多轮代码推理能力,推理速度快,适合自动化开发、代码补全、智能问答等场景。
标签:#Apple #DiffuCoder7B #cpGRPO #代码生成 #智能开发
DeepSeek-TNG-R1T2-Chimera:多语言Agent与推理

概要:TNG Tech 发布 DeepSeek-TNG-R1T2-Chimera,采用多Agent协作与混合推理架构,支持多语言输入、复杂任务分解、多轮对话与任务规划。模型集成了检索增强、工具调用等能力,适合企业自动化、智能助手、跨语言推理等应用。
标签:#TNGTech #DeepSeekTNG #Chimera #多语言Agent #复杂推理
DeepSWE-Preview:软件工程Agent模型

概要:Agentica 发布 DeepSWE-Preview,基于大规模代码与工程文档预训练,专为软件工程场景设计的Agent模型。模型具备代码审查、自动化开发、需求分析等多项能力,支持自然语言与代码混合输入,集成工程知识库,提升软件开发智能化水平。
标签:#Agentica #DeepSWE #软件工程Agent #自动化开发 #工程知识
ERNIE-4.5-21B-A3B-PT:百度新一代ERNIE大模型

概要:百度发布 ERNIE-4.5-21B-A3B-PT,采用知识增强预训练与多任务并行架构,21B参数新一代ERNIE大模型。模型支持多语言、多任务,具备强大的知识推理、生成与检索能力,在中文NLP、知识问答等领域表现优异,适合企业级智能应用。
标签:#Baidu #ERNIE45 #大模型 #知识推理 #多语言
jina-embeddings-v4:高效通用嵌入模型
概要:Jina AI 发布 jina-embeddings-v4,采用多层Transformer与跨模态对齐机制,面向文本、图像等多模态的高效通用嵌入模型。支持大规模检索、语义搜索、推荐系统等场景,兼容 Transformers、vLLM 等主流推理框架,适合多模态内容理解与应用。
标签:#JinaAI #JinaEmbeddingsV4 #多模态嵌入 #语义搜索 #推荐系统