OpenAI开源GPT-OSS系列模型|Wan2.2-Lightning4步生成高质量视频|Qwen-Image高难度文本渲染【HF周报】

neverbiasu大约 4 分钟

OpenAI开源GPT-OSS系列模型|Wan2.2-Lightning4步生成高质量视频|Qwen-Image高难度文本渲染【HF周报】

封面图

摘要

本周亮点：OpenAI发布其首个开源模型系列GPT-OSS，专为强大推理和代理任务设计；lightx2v推出Wan2.2-Lightning，实现4步极速高质量视频生成；Qwen-Image在复杂文本渲染和精准图像编辑方面取得显著进展。详见正文，相关参考链接请见文末。

目录

GPT-OSS：OpenAI首款开源大模型，主打推理与代理
Wan2.2-Lightning：4步生成高质量视频的闪电模型
Qwen-Image：精通中英双语的文本渲染与图像编辑模型
MiniCPM-V 4.0：手机端的GPT-4V级多模态模型
Qwen3-4B-Thinking-2507：深度思维链推理模型
kitten-tts-nano-0.1：25MB超轻量级高质量TTS

GPT-OSS：OpenAI首款开源大模型，主打推理与代理

GPT-OSS Logo 图

概要：OpenAI 发布其首个开源模型系列GPT-OSS，包含120B和20B两个版本，基于Apache 2.0许可，专为强大的推理能力、代理任务和多样化的开发者用例而设计。该模型支持可配置的推理级别、完整的思维链访问、微调以及函数调用、网页浏览和代码执行等原生代理能力，并通过MXFP4量化技术实现了在单张80GB GPU上的高效部署。

标签：#OpenAI #GPT-OSS #开源大模型 #推理 #代理任务

Wan2.2-Lightning：4步生成高质量视频的闪电模型

概要：lightx2v团队推出了Wan2.2-Lightning，这是对Wan2.2视频生成模型的蒸馏版本。新模型无需CFG技巧，仅需4步即可生成视频，速度提升20倍，同时在多数场景下保持了与基础模型相媲美甚至更好的视觉质量。它支持文本到视频（T2V）和图像到视频（I2V）的生成，并保留了出色的复杂动态场景生成能力。

标签：#lightx2v #Wan2.2-Lightning #视频生成 #Text-to-Video #Image-to-Video

Qwen-Image：精通中英双语的文本渲染与图像编辑模型

Qwen-Image Teaser 图

概要：Qwen团队发布了图像生成基础模型Qwen-Image，该模型在复杂文本渲染（尤其擅长中文）和精确图像编辑方面取得了显著进展。它不仅支持多种艺术风格的通用图像生成，还能进行风格迁移、对象操控、文本编辑等高级编辑任务，并具备对象检测、语义分割等图像理解能力，实现了语言、布局与图像的深度融合。

标签：#Qwen #Qwen-Image #图像生成 #文本渲染 #图像编辑

MiniCPM-V 4.0：手机端的GPT-4V级多模态模型

MiniCPM-V 4.0 Case 图

概要：OpenBMB发布了MiniCPM-V 4.0，一个仅有4.1B参数的高效多模态模型。它在8个主流基准测试中平均得分超越了GPT-4.1-mini，展现了领先的单图、多图及视频理解能力。该模型专为端侧部署设计，可在iPhone 16 Pro Max等设备上流畅运行，实现了低延迟和高吞吐，并支持多种便捷的部署方式。

标签：#OpenBMB #MiniCPM-V #多模态 #端侧部署 #GPT-4V

Qwen3-4B-Thinking-2507：深度思维链推理模型

Qwen3-4B-Thinking-2507 Benchmark 图

概要：Qwen团队发布了Qwen3-4B-Thinking-2507模型，该模型在Qwen3-4B的基础上持续扩展了思维能力。它在逻辑推理、数学、科学、编码等需要人类专业知识的推理任务上性能显著提升，并增强了指令遵循、工具使用和256K长上下文理解能力。该模型强制启用思维模式，专为处理高度复杂的推理任务而优化。

标签：#Qwen3 #思维链 #长上下文 #推理增强 #复杂任务

kitten-tts-nano-0.1：25MB超轻量级高质量TTS

kitten-tts-nano-0.1

概要：KittenML推出了kitten-tts-nano-0.1，一个仅有1500万参数、模型大小低于25MB的开源真实感文本转语音（TTS）模型。它专为轻量级部署和高质量语音合成而设计，经过CPU优化，无需GPU即可在任何设备上运行，并提供多种优质语音选项，实现了极快的实时推理速度。

标签：#KittenML #KittenTTS #TTS #轻量级模型 #CPU优化

参考链接