Wan2.2-S2V音频驱动视频生成 | InternVL3.5-241B超大多模态模型 | MiniCPM-V-4.5手机级模型【AI日报】
Wan2.2-S2V音频驱动视频生成 | InternVL3.5-241B超大多模态模型 | MiniCPM-V-4.5手机级模型【AI日报】

摘要
本周亮点:Wan-AI发布Wan2.2-S2V音频驱动视频生成模型,OpenGVLab推出InternVL3.5-241B超大多模态语言模型,OpenBMB开源端侧多模态模型MiniCPM-V4.5。详见正文,相关参考链接请见文末。
目录
- Wan2.2-S2V:音频驱动的电影级视频生成模型
- InternVL3.5-241B:开源最大多模态语言模型
- MiniCPM-V-4.5:手机级GPT-4o多模态模型
- MV-RAG:多视角扩散检索增强生成
- Linked API MCP:LinkedIn自动化集成平台
- Risely AI:高等教育智能顾问系统
Wan2.2-S2V:音频驱动的电影级视频生成模型

概要:阿里巴巴通义实验室发布Wan2.2-S2V-14B,这是一个音频驱动的电影级视频生成模型。该模型可以将静态图像和音频转换为高质量视频,支持480P和720P分辨率生成,能够呈现自然的面部表情、身体动作和专业摄影效果,适用于对话、歌唱和表演等多种专业级内容创作需求。
标签:#Wan2.2-S2V #音频驱动 #视频生成 #阿里巴巴 #电影级质量
InternVL3.5-241B:开源最大多模态语言模型

概要:OpenGVLab发布InternVL3.5-241B-A28B,这是目前开源社区最大的多模态语言模型,拥有241B参数。该模型引入级联强化学习框架和视觉分辨率路由器,在多模态推理、数学、OCR等任务上达到GPT-5水平,支持GUI交互和具身智能应用,推理性能提升16%且速度提升4倍。
标签:#InternVL3.5 #241B参数 #多模态模型 #强化学习 #开源巨模型
MiniCPM-V-4.5:手机级GPT-4o多模态模型

概要:OpenBMB发布MiniCPM-V-4.5,这是一个仅8B参数的多模态模型,在OpenCompass评测中平均得分77.0,超越GPT-4o-latest和Gemini-2.0 Pro。该模型支持高刷新率视频理解(最高10FPS)、可控混合思维模式,并可在iPhone和iPad上高效运行,实现移动端GPT-4o级别的多模态能力。
标签:#MiniCPM-V #8B参数 #移动端部署 #视频理解 #混合思维
MV-RAG:多视角扩散检索增强生成
概要:希伯来大学团队推出MV-RAG,这是一种检索增强的多视角扩散模型,用于文本到3D生成。该方法通过检索2D参考图像来指导多视角扩散模型,特别擅长处理罕见或分布外对象,在OOD对象生成上显著提升3D一致性、真实感和文本匹配度。
标签:#MV-RAG #3D生成 #检索增强 #多视角扩散 #希伯来大学
Linked API MCP:LinkedIn自动化集成平台

概要:Linked API推出MCP服务器,可将LinkedIn账户连接到Claude、Cursor、VS Code等AI助手。该平台支持销售自动化、招聘助手、对话管理和市场研究等功能,通过云浏览器安全自动化LinkedIn操作,包括潜在客户搜索、个人资料分析和个性化外联。
标签:#LinkedIn集成 #MCP协议 #销售自动化 #AI助手 #云浏览器
Risely AI:高等教育智能顾问系统

概要:Risely AI发布面向高等教育的AI顾问系统,可实时识别有风险的学生并提供个性化支持。该系统原生集成SIS、LMS、CRM等校园系统,自动生成定制化成功计划,确保FERPA合规和HECVAT认证,帮助教育工作者将更多时间投入到学生支持而非行政工作。
标签:#教育AI #学生支持 #FERPA合规 #高等教育 #智能顾问