1. Unsloth 有什么用? 00:00
Unsloth 训练行业专家模型 00:12
Unsloth 的 4 个核心技术 03:40
2. 解密 Flash Attention 06:23
GPU 硬件架构 06:33
Kernel fusion 11:02
Matrix tiling 16:03
Softmax statistics 18:30
Recompute for backward pass 19:47
3. 重写 Triton kernels 24:04
4. 优化矩阵链乘法 27:35
多个矩阵相乘时,计算成本与顺序相关
5. 手工实现 AutoGradient 31:12
AutoGradient 解决什么问题 32:33
为什么 Unsloth 要手工实现 AutoGradient,如何手工写 34:02
6. 解密 LoRA 37:54
什么是矩阵的秩 rank 38:06
LoRA 牺牲模型精度,换取训练速度 39:06
LoRA 编程不太难 42:07
7. GaLore 全面超越 LoRA 45:11
把整个梯度空间拆解为若干子空间 45:24
GaLore 与 LoRA 哪些相同哪些不同 47:15
8. 用 Llama_factory 实操 Unsloth + GaLore 50:58
复盘 Unsloth 和 GaLore 的核心原理 50:58
Llama_factory 设置与运行结果 52:04