Grok-2开源 | WAN2.2多合一视频加速模型 | Chroma1-HD图像生成【AI日报】

neverbiasu大约 4 分钟

Grok-2开源 | WAN2.2多合一视频加速模型 | Chroma1-HD图像生成【AI日报】

摘要

本周亮点：xAI开源Grok-2大模型权重，Phr00t发布WAN2.2多合一视频生成加速模型，lodestones推出Chroma1-HD高质量图像生成模型。详见正文，相关参考链接请见文末。

xAI正式开源Grok-2大模型权重

xAI Logo 图

概要：xAI正式在Hugging Face发布Grok-2大型语言模型的完整权重，这是该公司继Grok-1后的又一重大开源举措。该模型包含42个文件，总大小约500GB，需要8张40GB以上显存的GPU进行推理，支持SGLang推理引擎部署。

标签：#Grok-2 #xAI #大语言模型 #开源模型 #SGLang

微软发布VibeVoice 1.5B长语音合成模型

概要：微软研究院推出VibeVoice前沿开源文本转语音模型，基于Qwen2.5-1.5B构建，能够合成长达90分钟的多说话人对话音频。该模型采用连续语音分词器和扩散框架，在7.5Hz超低帧率下高效处理长序列，支持最多4个不同说话人的自然对话生成。

标签：#VibeVoice #微软 #文本转语音 #多说话人 #扩散模型

Chroma1-HD：基于FLUX的8.9B参数图像生成模型

概要：lodestones发布Chroma1-HD，这是一个基于FLUX.1-schnell架构的8.9B参数文本转图像模型。该模型采用Apache 2.0许可证完全开源，专为微调设计，提供强大的中性基础。相比原始FLUX模型，通过架构优化将参数从12B减少到8.9B，同时改进了时间步编码和MMDiT掩码机制。

标签：#Chroma1-HD #FLUX架构 #文本转图像 #Apache许可 #微调友好

WAN2.2多合一视频生成加速模型

概要：Phr00t发布WAN2.2-14B-Rapid-AllInOne，这是基于WAN2.2的快速视频生成解决方案。该模型包含图像转视频和文本转视频功能，使用FP8精度，推荐1 CFG和4步生成，兼容ComfyUI的Load Checkpoint节点，支持8GB显存设备运行。

标签：#WAN22 #视频生成 #图像转视频 #ComfyUI #低显存优化

HKUDS发布DeepCode多智能体代码生成平台

概要：香港大学数据科学学院开源DeepCode，这是基于多智能体系统的代码生成平台。支持Paper2Code、Text2Web、Text2Backend三大功能，能将研究论文自动转换为生产就绪代码，提供CLI和Web两种界面，集成CodeRAG检索增强生成技术，智能处理长文档分段。

标签：#DeepCode #多智能体 #代码生成 #论文复现 #智能开发

Project AIRI开源AI虚拟伴侣系统

概要：moeru-ai团队发布Project AIRI，旨在构建终极虚拟AI伴侣。该项目支持Live2D和VRM虚拟形象，能够进行实时语音聊天、游戏互动包括Minecraft和Factorio，支持Web、MOSC、Windows多平台部署，已实现PWA支持移动设备访问。

标签：#ProjectAIRI #虚拟伴侣 #Live2D #游戏互动 #跨平台