Wan2.2-S2V音频驱动视频生成 | InternVL3.5-241B超大多模态模型 | MiniCPM-V-4.5手机级模型【AI日报】

neverbiasu大约 4 分钟

Wan2.2-S2V音频驱动视频生成 | InternVL3.5-241B超大多模态模型 | MiniCPM-V-4.5手机级模型【AI日报】

摘要

本周亮点：Wan-AI发布Wan2.2-S2V音频驱动视频生成模型，OpenGVLab推出InternVL3.5-241B超大多模态语言模型，OpenBMB开源端侧多模态模型MiniCPM-V4.5。详见正文，相关参考链接请见文末。

Wan2.2-S2V：音频驱动的电影级视频生成模型

概要：阿里巴巴通义实验室发布Wan2.2-S2V-14B，这是一个音频驱动的电影级视频生成模型。该模型可以将静态图像和音频转换为高质量视频，支持480P和720P分辨率生成，能够呈现自然的面部表情、身体动作和专业摄影效果，适用于对话、歌唱和表演等多种专业级内容创作需求。

标签：#Wan2.2-S2V #音频驱动 #视频生成 #阿里巴巴 #电影级质量

InternVL3.5-241B：开源最大多模态语言模型

概要：OpenGVLab发布InternVL3.5-241B-A28B，这是目前开源社区最大的多模态语言模型，拥有241B参数。该模型引入级联强化学习框架和视觉分辨率路由器，在多模态推理、数学、OCR等任务上达到GPT-5水平，支持GUI交互和具身智能应用，推理性能提升16%且速度提升4倍。

标签：#InternVL3.5 #241B参数 #多模态模型 #强化学习 #开源巨模型

MiniCPM-V-4.5：手机级GPT-4o多模态模型

概要：OpenBMB发布MiniCPM-V-4.5，这是一个仅8B参数的多模态模型，在OpenCompass评测中平均得分77.0，超越GPT-4o-latest和Gemini-2.0 Pro。该模型支持高刷新率视频理解（最高10FPS）、可控混合思维模式，并可在iPhone和iPad上高效运行，实现移动端GPT-4o级别的多模态能力。

标签：#MiniCPM-V #8B参数 #移动端部署 #视频理解 #混合思维

MV-RAG：多视角扩散检索增强生成

概要：希伯来大学团队推出MV-RAG，这是一种检索增强的多视角扩散模型，用于文本到3D生成。该方法通过检索2D参考图像来指导多视角扩散模型，特别擅长处理罕见或分布外对象，在OOD对象生成上显著提升3D一致性、真实感和文本匹配度。

标签：#MV-RAG #3D生成 #检索增强 #多视角扩散 #希伯来大学

Linked API MCP：LinkedIn自动化集成平台

概要：Linked API推出MCP服务器，可将LinkedIn账户连接到Claude、Cursor、VS Code等AI助手。该平台支持销售自动化、招聘助手、对话管理和市场研究等功能，通过云浏览器安全自动化LinkedIn操作，包括潜在客户搜索、个人资料分析和个性化外联。

标签：#LinkedIn集成 #MCP协议 #销售自动化 #AI助手 #云浏览器

Risely AI：高等教育智能顾问系统

概要：Risely AI发布面向高等教育的AI顾问系统，可实时识别有风险的学生并提供个性化支持。该系统原生集成SIS、LMS、CRM等校园系统，自动生成定制化成功计划，确保FERPA合规和HECVAT认证，帮助教育工作者将更多时间投入到学生支持而非行政工作。

标签：#教育AI #学生支持 #FERPA合规 #高等教育 #智能顾问