跳至主要內容

主要功能与配置演示

Blog Home
如何使用
文章
Intro Page
幻灯片

Papers

neverbiasu小于 1 分钟

目录

【论文精读】AlexNet：ImageNet Classification with Deep Convolutional Neural Networks
【论文精读】BAGEL: 统一多模态预训练中的涌现属性 (Emerging Properties in Unified Multimodal Pretraining)
【论文精读】BLIP3-o：完全开源的统一多模态模型家族
【论文精读】ColorizeDiffusion：基于参考图像和文本的可调整草图上色方法
【论文精读】ComfyUI-R1：探索用于工作流生成的推理模型
【论文精读】DGPST：精通百变风格的通用肖像画师
【论文精读】Echo-4o：用GPT-4o合成图像强化生成能力
【论文精读】EchoMimicV3：1.3B参数，统一多模态多任务人类动画
【论文精读】FLUX.1 Kontext：统一图像生成与编辑的流匹配模型
【论文精读】FramePack：在下一帧预测视频生成模型中打包输入帧上下文
【论文精读】HunyuanCustom：多模态驱动的定制视频生成架构
【论文精读】ICEdit：In-Context Edit——大规模扩散Transformer的指令图像编辑新范式
【论文精读】Ming-Omni: 统一的多模态感知与生成模型
【论文精读】NoHumansRequired：高质量图像编辑的自主三元组挖掘
【论文精读】OmniConsistency：从成对风格化数据中学习与风格无关的一致性
【论文精读】OmniGen2：探索先进多模态生成（OmniGen2: Advancing Unified Multimodal Generation）
【论文精读】Ovis-U1：统一多模态理解、生成与编辑的3B模型
【论文精读】PixNerd：像素神经场扩散
【论文精读】QR-LoRA：基于QR分解的高效解耦微调
【论文精读】Qwen-Image：原生文本渲染与一致性编辑的生成基础模型
【论文精读】RepText：通过复制实现视觉文本渲染
【论文精读】ResNet：Deep Residual Learning for Image Recognition
【论文精读】SDO: 用梯度捷径加速扩散采样中的反向传播
【论文精读】Show-o2: 改进的原生统一多模态模型
【论文精读】Transformer：Attention Is All You Need
【论文精读】VLV：视觉-语言-视觉自编码器的可扩展知识蒸馏
【高效科研】李沐与吴恩达推荐的论文三步精读法

我的页脚

Copyright © 2025 neverbiasu