Grok-2开源 | WAN2.2多合一视频加速模型 | Chroma1-HD图像生成【AI日报】
Grok-2开源 | WAN2.2多合一视频加速模型 | Chroma1-HD图像生成【AI日报】

摘要
本周亮点:xAI开源Grok-2大模型权重,Phr00t发布WAN2.2多合一视频生成加速模型,lodestones推出Chroma1-HD高质量图像生成模型。详见正文,相关参考链接请见文末。
目录
- xAI正式开源Grok-2大模型权重
- WAN2.2多合一视频生成加速模型
- Chroma1-HD:基于FLUX的8.9B参数图像生成模型
- 微软发布VibeVoice 1.5B长语音合成模型
- HKUDS发布DeepCode多智能体代码生成平台
- Project AIRI开源AI虚拟伴侣系统
xAI正式开源Grok-2大模型权重

概要:xAI正式在Hugging Face发布Grok-2大型语言模型的完整权重,这是该公司继Grok-1后的又一重大开源举措。该模型包含42个文件,总大小约500GB,需要8张40GB以上显存的GPU进行推理,支持SGLang推理引擎部署。
标签:#Grok-2 #xAI #大语言模型 #开源模型 #SGLang
微软发布VibeVoice 1.5B长语音合成模型

概要:微软研究院推出VibeVoice前沿开源文本转语音模型,基于Qwen2.5-1.5B构建,能够合成长达90分钟的多说话人对话音频。该模型采用连续语音分词器和扩散框架,在7.5Hz超低帧率下高效处理长序列,支持最多4个不同说话人的自然对话生成。
标签:#VibeVoice #微软 #文本转语音 #多说话人 #扩散模型
Chroma1-HD:基于FLUX的8.9B参数图像生成模型

概要:lodestones发布Chroma1-HD,这是一个基于FLUX.1-schnell架构的8.9B参数文本转图像模型。该模型采用Apache 2.0许可证完全开源,专为微调设计,提供强大的中性基础。相比原始FLUX模型,通过架构优化将参数从12B减少到8.9B,同时改进了时间步编码和MMDiT掩码机制。
标签:#Chroma1-HD #FLUX架构 #文本转图像 #Apache许可 #微调友好
WAN2.2多合一视频生成加速模型

概要:Phr00t发布WAN2.2-14B-Rapid-AllInOne,这是基于WAN2.2的快速视频生成解决方案。该模型包含图像转视频和文本转视频功能,使用FP8精度,推荐1 CFG和4步生成,兼容ComfyUI的Load Checkpoint节点,支持8GB显存设备运行。
标签:#WAN22 #视频生成 #图像转视频 #ComfyUI #低显存优化
HKUDS发布DeepCode多智能体代码生成平台
概要:香港大学数据科学学院开源DeepCode,这是基于多智能体系统的代码生成平台。支持Paper2Code、Text2Web、Text2Backend三大功能,能将研究论文自动转换为生产就绪代码,提供CLI和Web两种界面,集成CodeRAG检索增强生成技术,智能处理长文档分段。
标签:#DeepCode #多智能体 #代码生成 #论文复现 #智能开发
Project AIRI开源AI虚拟伴侣系统

概要:moeru-ai团队发布Project AIRI,旨在构建终极虚拟AI伴侣。该项目支持Live2D和VRM虚拟形象,能够进行实时语音聊天、游戏互动包括Minecraft和Factorio,支持Web、MOSC、Windows多平台部署,已实现PWA支持移动设备访问。
标签:#ProjectAIRI #虚拟伴侣 #Live2D #游戏互动 #跨平台