GLM-4.5V推理强化|Qwen-Image-Lightning提速25×|GameCraft开源【HF周报】

neverbiasu大约 4 分钟

GLM-4.5V推理强化|Qwen-Image-Lightning提速25×|GameCraft开源【HF周报】

摘要

本周亮点：Z.ai 推出 GLM‑4.5V（多模态+思维模式）；Qwen‑Image‑Lightning 4/8步蒸馏提速；腾讯开源 Hunyuan‑GameCraft。含 Gemma3‑270M、Jan‑v1‑4B、Ovis2.5‑2B、LFM2‑VL‑1.6B。详见正文与文末参考链接。

GLM-4.5V：MoE多模态+思维模式，兼顾基准与实用
Qwen-Image-Lightning：4/8步蒸馏LoRA，提速12–25×
Hunyuan-GameCraft-1.0：键鼠可控的交互式游戏视频生成
gemma-3-270m：270M小体量多模态，32K上下文
Jan-v1-4B：Agentic推理，SimpleQA达91.1%
Ovis2.5-2B：NaViT原生分辨率+思维预算
LFM2-VL-1.6B：面向边缘端的高效VLM

GLM-4.5V：MoE多模态+思维模式，兼顾基准与实用

概要：Z.ai 发布 GLM-4.5V，基于下一代旗舰文本基座 GLM-4.5-Air（MoE，106B参数、12B激活），在42项视觉语言基准同规模SOTA，覆盖图像/视频/文档理解、GUI智能体与定位等任务；并延续“Thinking Mode”思维开关，支持在快速响应与深度推理间灵活取舍，强调真实场景可用性与格式鲁棒性。

标签：#Z.ai #GLM-4.5V #MoE多模态 #思维模式开关 #GUI智能体

Qwen-Image-Lightning：4/8步蒸馏LoRA，提速12–25×

概要：ModelTC 发布 Qwen-Image-Lightning（基于 Qwen-Image 的蒸馏加速方案），提供4步与8步LoRA权重，在多数场景保持接近基座质量的同时，实现约12–25×加速；兼容 Diffusers 与 ComfyUI 工作流，易于落地高效文生图，适合对吞吐与延迟要求敏感的生成应用。

标签：#ModelTC #Qwen-Image-Lightning #蒸馏加速 #Few-steps生成 #ComfyUI工作流

Hunyuan-GameCraft-1.0：键鼠可控的交互式游戏视频生成

概要：腾讯发布 Hunyuan-GameCraft-1.0，面向游戏环境的高动态交互式视频生成框架。其创新在于将键盘与鼠标输入统一到共享相机表示空间，并采用混合历史条件训练以自回归扩展长序列，同时通过蒸馏优化推理效率与可玩性，支持多GPU并行与低显存单卡推理，向实时部署迈进。

标签：#Tencent #Hunyuan-GameCraft #交互式视频 #键鼠动作条件 #实时推理

gemma-3-270m：270M小体量多模态，32K上下文

概要：Google DeepMind 发布 Gemma 3 270M，小体量多模态模型，支持文本与图像输入、文本输出，提供32K上下文（大规格至128K），多语言覆盖140+语言，适合资源受限环境部署；同时强调训练与伦理安全实践，并开放预训练与指令版权重（需同意使用条款）。

标签：#GoogleDeepMind #Gemma3-270M #小型多模态 #32K上下文 #开放可用条款

Jan-v1-4B：Agentic推理，SimpleQA达91.1%

概要：JanHQ 发布 Jan-v1-4B，基于 Qwen3-4B-Thinking 强化推理与工具使用，面向 Jan App 的智能体任务，SimpleQA 达91.1% 显示在小体量上亦具良好事实问答能力；支持 vLLM 与 llama.cpp 本地部署，便于在桌面与私有环境快速体验与集成。

标签：#JanHQ #Jan-v1-4B #Agentic推理 #工具调用 #SimpleQA_91_1

Ovis2.5-2B：NaViT原生分辨率+思维预算

概要：AIDC-AI 发布 Ovis2.5-2B，采用 NaViT 以原生分辨率处理变长图像，保留细节与全局布局，并在推理侧提供“思维模式/思维预算”以在延迟与准确间动态折中；在图表/文档OCR、视频理解与定位等任务上展示小模型强多模态能力，延续“小体量大性能”理念。

标签：#AIDC-AI #Ovis2_5-2B #NaViT原生分辨率 #思维预算 #图表文档OCR

LFM2-VL-1.6B：面向边缘端的高效VLM

概要：Liquid AI 发布 LFM2‑VL‑1.6B，基于 LFM2 语言塔与 SigLIP2 NaFlex 视觉编码器，提供原生分辨率处理、动态图像token、拼块与全局缩略联合策略，推理时可调速质权衡；相较同类小型VLM具更低时延，适合边缘端部署与垂直场景微调。

标签：#LiquidAI #LFM2-VL-1_6B #边缘端部署 #SigLIP2_NaFlex #可变分辨率