1. Deepseed 的三大战役 00:00
2. 多模态竞争格局 03:15
3. 多模态技术现状与缺陷 09:11
4. 统一场多模态的初步尝试 14:35
4.1 清华唐杰教授的 CogVLM 22:04
4.2 Yang LeCun 和谢赛宁教授的 MetaMorph 27:46
5. Janus-pro 系统架构 30:59
5.1 Adaptors + Pretained Encoders 31:24
5.2 AutoRegressive Transformer + Rectified Flow Model 33:48
6. 模型训练成了炼金术 37:05
6.1 分成三个阶段来训练 38:58
6.2 每个阶段的时长的配比 40:41
6.3 每个阶段不同类型数据的配比 42:26
7. 训练成本 48:20
8. 两个先进武器迎战最后的决战 51:12
8.1 用流体力学来生成图像 52:45
8.2 当多模态与 MLA 和 MoE 融合 62:48
9. 总结 66:10
1. Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
3. CogVLM: Visual Expert for Pretrained Language Models
4. MetaMorph: Multimodal Understanding and Generation via Instruction Tuning