
早上
9点多,自然醒吧,感觉现在睡7个小时就已经开始做梦了,非常浅的睡眠,于是就还是早起了点。起床之后的习惯还是不好,开始躺在床上刷短视频和打游戏。点了个叮咚买菜,玩到差不多11点多才下床拿我的菜。
中午
持续学习
9点多,自然醒吧,感觉现在睡7个小时就已经开始做梦了,非常浅的睡眠,于是就还是早起了点。起床之后的习惯还是不好,开始躺在床上刷短视频和打游戏。点了个叮咚买菜,玩到差不多11点多才下床拿我的菜。
今天去参加了在徐汇西岸召开的2025GDC大会(Global Developer Conference),中文名叫全球开发者先锋大会,TA的官方介绍如下: 今年的主题是”模塑全球 无限可能“,围绕大模型,结合了算力、语料、基金等要素,聚焦具身智能、无人驾驶和科学智能等五大领域,及金融、医疗、智能制造等六大行业,做厚产业生态;以”社区的社区“为基础,打造高创新浓度、高创业热度、高人才密度的开发者生态。
more
注释之前的内容被视为文章摘要。
FramePack由斯坦福大学张吕敏等提出,是一种输入预处理模块,可无缝集成到主流视频扩散模型(如混元视频模型),通过自适应帧压缩和反漂移采样,有效提升长时序一致性和生成质量,支持13B模型在6GB显存上流畅生成长视频,显著降低算力门槛。
在 ComfyCon 上,我见到了不少在不同平台上的领军人物,他们为什么能成为顶流,我可以吗?引发了我的思考:
本文将基于我各平台的数据,直面问题,剖析优劣得失,并探索未来可执行的改进方向,为自己带来更明确的运营策略和目标。
平台 | 平台分类 | 描述 | 创作开始时间 | 最近更新时间 | 成就 |
---|---|---|---|---|---|
Bilibili | 内容传播 | 国内长视频内容发布和互动平台 | Dec. 5, 2022 | Jan. 6, 2025 | 孙笑川与邻居友好互动日版6.9万播放量,总播放21.4万,总获赞2593,粉丝34 |
CivitAI | AI 社区 | 最大AI绘画模型社区 | Mar. 2, 2025 | Apr. 2, 2025 | FeMix_HassakuXL获得2.6K下载,35书签,138点赞,总下载2.7K,总获赞183,粉丝58;Leaderboard新创作者第14,Base Model Creators第16 |
CodeWithGPU | 镜像 | autodl的算法镜像社区 | Jan. 1, 2024 | Mar. 3, 2025 | ChatTTS全站最高排名第49,总下载2.4K |
CompShare | 镜像 | CompShare的算法镜像社区 | Nov. 7, 2024 | Mar. 20, 2025 | lora-scripts全站最高排名第2 |
GitHub | 代码 | 代码开源平台 | Oct. 29, 2023 | Apr. 2, 2025 | ComfyUI-SAM2获144 Star,总Star233,开发者评级A |
Liblib | AI 社区 | 国内最大AI绘画模型/工作流平台 | Jan. 27, 2025 | Mar. 26, 2025 | 总下载3.2K |
ModelScope | AI 社区 | 国内最大AI模型平台(huggingface平替) | June 3, 2025 | Mar. 27, 2025 | 总下载7945 |
OpenArt | AI 社区 | 最大的AI工作流开源社区 | Mar. 3, 2025 | Mar. 7, 2025 | 总下载441,观看1.5K |
微信公众号 | 内容传播 | 微信自带的信息发布和互动平台 | Sept. 1, 2025 | Mar. 31, 2025 | 【高效科研】李沐和吴恩达推荐的论文散步精度法获517阅读,121转发,粉丝171 |
知乎 | 内容传播 | 问答、专业知识分享和讨论平台 | Mar. 29, 2024 | Feb. 26, 2025 | 总获赞447,被关注49 |
Illustrious XL 3.0-3.5-vpred 标志着 Stable Diffusion XL(SD XL)模型的一项重大进展,显著支持从 256 到 2048 分辨率的无缝扩展。特别是 v3.5-vpred 变体,在自然语言理解能力上达到了类似于迷你大型语言模型(LLMs)的精细程度,这是通过对 CLIP 与 UNet 组件的广泛同时训练实现的。
Illustrious v3.0-v3.5 系列设计了两种不同的训练目标以探索行为差异:
V3.0-epsilon 使用 epsilon 预测(噪声预测),确立了作为未来训练任务(尤其是与 LoRA 训练兼容)稳定"基底"模型的地位。该模型在默认状态下输出的风格较 vpred 变体更具特色,在某些美学评分中有时表现最佳。
V3.0-vpred 则采用 velocity 预测(v 参数化),展示出更强的组合理解能力,但最初伴随着严重问题,包括灾难性遗忘、领域偏移、颜色过饱和以及因零终端 SNR(Zero Terminal SNR)实现失误而导致的色板崩溃。
V3.5-vpred 则在实验性设置下训练,试图缓解上述问题。该模型显示出颜色更稳定,但并不天然生成鲜艳色彩,其功能已转移至特定的控制令牌(controlling tokens)。
在竞争激烈的游戏开发世界中,紧跟技术进步至关重要。生成式AI已经成为游戏规则的改变者,为游戏设计师提供了前所未有的机会,使他们能够突破界限并创造身临其境的虚拟世界。在这场革命的前沿是Stability AI的尖端文本到图像AI模型——Stable Diffusion 3.5 Large (SD3.5 Large),它正在彻底改变我们创建游戏环境的方式。
SD3.5 Large可在Amazon Bedrock上使用,是Stability AI迄今为止最先进的文本到图像模型。拥有81亿参数,该模型擅长从文本描述生成高质量的百万像素图像,具有卓越的提示符合性,使其成为快速创建详细游戏环境的理想选择。其改进的架构基于多模态扩散变换器(MMDiT),结合多个预训练文本编码器以增强文本理解能力,并使用QK归一化来提高训练稳定性。
本文描述了如何在 VS Code 中安装 "Copilot MCP" 扩展,并结合 MCP 使用 GitHub Copilot 从 GitHub 获取信息进行测试。
注意:由于官方 GitHub Copilot 实现似乎也支持 MCP,一旦该功能发布,此扩展可能将不再必要。
请提前确保以下事项:
npm
和 npx
命令在每个AI应用程序的底层,都有算法在以自己的语言处理数据,这种语言基于token词汇。
token是通过分解更大信息块而来的微小数据单元。AI模型处理token以学习它们之间的关系,并解锁包括预测、生成和推理在内的能力。token处理得越快,模型学习和响应的速度就越快。
Illustrious XL 1.0-2.0系列旨在稳定1536分辨率的原生生成,同时显著提高自然语言理解能力。
虽然用户有时会观察到在1024x1536分辨率下能成功生成,但这些并不稳定。同样,512x512分辨率的生成偶尔也会产生不必要的伪影。
这些不一致的根本原因很简单:模型未在这些分辨率上进行有效泛化或训练。使用小数据集填补这些空白往往会导致在某些分辨率上过拟合。这意味着模型会将特定分辨率与特定概念关联起来,使其在多样化生成时变得不可靠。
一个有用的比喻是"广角效果"。如果数据集通常包含广角镜头,当给定广角分辨率时,模型自然会生成更小的人物,因为这是它学习泛化的方式。
This is a blog home page demo.
To use this layout, you should set both layout: BlogHome
and home: true
in the page front matter.
For related configuration docs, please see blog homepage.