节目列表: AI 前线 - EarsOnMe - 精选播客，一听即合

5个月前

行业专家大模型 Artificial Domain Intelligence

1) AGI vs ADI, 行业专家大模型 00:00 2) Agent 05:35 2.1 RAG 05:39 2.2 Deep Research 06:38 2.3 Self-memory 09:03 2.4 Multi-agents RL 10:57 3) 大模型与大算力 12:11 3.1 Transformer 架构与算力消耗 13:38 3.2 GPU 内存与硬盘 14:57 3.3 FlashAttention 17:02 4) Adapter 19:24 4.1 Low Rank Adapter (LoRA) 19:51 4.2 GaLore 21:33 4.3 K-adapter 23:14 5) Mixture of Experts 24:14 5.1 Mistral 24:29 5.2 Deepseek-V3 26:12 6) RL for reasoning 28:00 6.1 RLHF & PPO 28:22 6.2 GRPO 29:13 6.3 多轮对话的话术 30:56 7) 像专家那样说话 33:56 7.1 Direct Preference Optimization (DPO) 34:32 7.2 Kahneman-Tversky Optimization (KTO) 36:44 8) 数据与标注 37:51 8.1 数据蒸馏 38:29 8.2 Monto Carlo Tree Search 做推理标注 40:28 9) GRPO + LoRA 实战 43:02 9.1 编程和数据 43:17 9.2 测试 44:50

46分钟

7个月前

解密 Unsloth 和 GaLore

1. Unsloth 有什么用？ 00:00 Unsloth 训练行业专家模型 00:12 Unsloth 的 4 个核心技术 03:40 1. 2. 解密 Flash Attention 06:23 GPU 硬件架构 06:33 Kernel fusion 11:02 Matrix tiling 16:03 Softmax statistics 18:30 Recompute for backward pass 19:47 1. 3. 重写 Triton kernels 24:04 1. 4. 优化矩阵链乘法 27:35 多个矩阵相乘时，计算成本与顺序相关 1. 5. 手工实现 AutoGradient 31:12 AutoGradient 解决什么问题 32:33 为什么 Unsloth 要手工实现 AutoGradient，如何手工写 34:02 1. 6. 解密 LoRA 37:54 什么是矩阵的秩 rank 38:06 LoRA 牺牲模型精度，换取训练速度 39:06 LoRA 编程不太难 42:07 1. 7. GaLore 全面超越 LoRA 45:11 把整个梯度空间拆解为若干子空间 45:24 GaLore 与 LoRA 哪些相同哪些不同 47:15 1. 8. 用 Llama_factory 实操 Unsloth + GaLore 50:58 复盘 Unsloth 和 GaLore 的核心原理 50:58 Llama_factory 设置与运行结果 52:04

58分钟

7个月前

学习使用 Llama_factory 成为 AI 模型训练专家

视频版：https://www.bilibili.com/video/BV1rbXsYyEaz 1. 前言 00:00 AI 模型训练，涉及非常多的概念和算法和系统设计，学会了 Llama_factory，就成了 AI 模型训练的专家。 2. 基座模型的选择 01:23 从 ModelScope 上手工下载部署基座模型， https://modelscope.cn/models https://huggingface.co/models Llama_factory 的模型名称，略有瑕疵，用户要避免误解。 3. 模型训练的类型 05:32 Pre-training，SFT，RLHF，DPO，KTO，如何选择模型训练类型？我们将单独做一期节目，分享我们的实战经验。 4. SFT 的训练方式 07:58 Full, freeze, lora，其中普遍使用的是 LoRA，我们先从 LoRA 学起。 5. 量化和加速设置 08:51 flash_attention + liger_kernel 可以并用，但是 unsloth 不能与它们并用。 6. 训练参数设置 11:57 略显草率的 UI 设计，用户要避免迷失，通用的参数设置，与训练类型相关的参数设置，与训练类型相关的的补充设置，以及训练结果的记录和分析，SwanLab，不应该安排在页面同一个框内。 7. 数据集 16:07 先手工从 ModelScope 下载数据集，下载完成后，然后再启动 Llama_factory，哪些数据集，适用于哪些模型的哪些训练方法，需要阅读 Llama_factory 的 github pages， https://github.com/hiyouga/LLaMA-Factory/blob/main/data/README.md 8. 命令行 preview 18:25 前序 configs，都是为了设置这个命令行中的各个参数，能否单独用 Unsloth？当然可以，其实所谓单独使用 Unsloth，等同于手工设置命令行。 9. 训练与体验 19:57 训练过程，日志，与调优，专业的冷门的问题，“请问，鹿角铲是装饰品，还是古代祭祀用的礼器，还是工具？” 10. 总结 24:32 学会了 Llama_factory，就成了 AI 模型训练的专家，参考文献， 1. 知乎上的指南，“LLaMA-Factory QuickStart” (https://zhuanlan.zhihu.com/p/695287607)， 2. Llama_factory 官方指南 (https://llamafactory.readthedocs.io/zh-cn/latest/)， 3. Llama_factory 论文，“LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models” (https://arxiv.org/abs/2403.13372)。

28分钟

7个月前

关于对 Manus 的质疑

1. 前言：几个问题 00:00 国内火国外不火，是炒作吗？ Manus 是 AGI 吗？与 Deepseek 是同等重要的进步吗？ 2. Manus 与 Agent 00:43 Agent 通过 API 调用其它软件服务，Manus 用鬼手， 3. Manus 与 AGI 04:34 AGI 的五个等级，chatbot, reasoner, agent, innovator, orginazor，更好用的 Agent，属于第 3 等级的优化， Deepseek 是推理者，属于第 2 等级的优化，第 2 等级并不低于第 3 等级，国外不火的原因，美国更看重基础研究， 4. GAIA 测试 11:38 450 组数据，三个等级，“照片中这几位宇航员，哪一位在太空飞行的总时间最长？” Huggingface 排行榜上暂时没有 manus， 5. Manus 的竞品，OpenAI 的 Deep Research 17:00 Deep Research 只操作浏览器，而 manus 理论上可以操作任何软件， Deep Research == re-search == exploratory search， 6. Manus 的竞品，Anthropic 的 computer use 20:43 一样：都试图操控电脑上所有软件，不一样：Manus 部署在云端，Computer use 部署在个人电脑， 7. Manus 的竞品，AutoGPT 23:27 AutoGPT 是 Computer use 的先驱， Prompt 工程，当年的大模型，做 planning 的质量不太好， AutoGPT 每一步的输出格式，难以控制， 8. Manus 能否部署在本地 27:56 云端部署的好处，在云端部署电脑软件，更可控，云端部署的缺陷，云端能同时服务的客户人数，吞吐量有限，发邀请码，不完全是因为搞饥渴营销，而是受制于吞吐量， 9. 在公司内网部署 Manus 是最优选择 29:42 个人电脑部署，非常麻烦，公司内网部署是最优方案，部署还算方便，私域数据， 10. Manus 是否将开源 31:41 接通 Agent 私域数据，开源将大大降低数据安全的担忧，有利于市场推广。

33分钟

2k+

中国的 AI 逆袭战略

1. 中国在 AI 领域的逆袭战略 00:00 2. DS 出现以前，美国设定的 AI 行业格局 02:00 美国的四大 AI 寡头，各国各企业 Agent 接入美国 AI 大模型， 3. DS 出现以后，全球 AI 将出现平权运动 04:28 算力平权：欧盟巴黎会议的潜台词，数据平权：通过数据蒸馏，间接获得全网数据，算法平权：Huggingface 的 SFTtrainer， 4. DS 出现以后，哪些问题没有改变 08:26 算力紧张仍然延续，程序员仍然紧缺， 5. DS 出现以后，中国 AI 战略初步成型 11:23 舆论先行，AI 大模型个人用户大量涌现，政府布置作业，各个企业开始做作业，成功范例出现，榜样的力量是无穷的， 6. 企业落地 DS 的产品形态 16:38 出现各个行业的 AI 行业专家 7. 把 DS 落地到企业各个环节 18:54 1）市场营销：AI 咨询 + 媒体内容制作， 2）售前定制化方案：AI 设计， 3）销售合同： AI 法务， 4）供应链：AI 预测 + 区块链 5）ERP：智慧中台，智能制造，通用的工具箱 + 各个企业 IT 具体部署， 6）物流：四流合一，合同、发票、转账、仓库出入， 7）售后安装和维修：图文并茂的一步一步的指导，客服只是覆盖了市场咨询营销和售后安装和维修两个环节， 8. 企业落地 DS 的步骤 29:04 1）租用公有云火山引擎 + DS，初步体验 RAG， 2）不改变 DS，外挂的行业 AI 专家模型， 3）对 DS 做 SFT + RL 再训练，内生的行业 AI 专家模型， 9. 行业 AI 专家模型的意义 33:17 行业话语权，一流的企业定标准，中国将涌现出一大批 AI 工程师，中国人的智力资源，将通过行业 AI 大模型这种产品形态，畅销全球，巨大的市场，将促进中国 GPU 芯片研发。

36分钟

1k+

用流体力学来生成图像

1. 流匹配是扩散模型父节点 00:00 2. 图像空间的数据分布 01:16 3. 概率路径如同地壳运动 05:01 4. 扩散模型就像山峦坍塌成沙漠 06:40 5. 条件流匹配是矫正流的父节点 09:54 6. 矫正流是最优传输耦合的父节点 13:45 7. 展望多模态统一场 16:01 8. 强化学习能否融入流匹配 17:22 9. 总结 18:51 参考文献， 1. Flow Matching for Generative Modeling 2. Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow

19分钟

用热力学来生成图像

1. Deepseek 用流体力学来生成图像 00:00 2. 图像空间与数据分布 01:31 3. 估算图像空间的数据分布 05:34 4. 增噪过程的步幅控制 07:29 5. U-Net 之 encoder 09:32 6. 降噪过程与郎之万动力学 11:41 7. U-Net 之 decoder 14:12 8. U-Net 训练过程的损失函数 16:17 9. 用文本提示词引导图像生成 18:14 10. 向量量化 VQ 21:06 11. 总结 23:06 参考文献： 1. Denoising Diffusion Probabilistic Models 2. High-Resolution Image Synthesis with Latent Diffusion Models

24分钟

Deepseek的第三次战役：国产AI如何挑战OpenAI？

1. Deepseed 的三大战役 00:00 2. 多模态竞争格局 03:15 3. 多模态技术现状与缺陷 09:11 4. 统一场多模态的初步尝试 14:35 4.1 清华唐杰教授的 CogVLM 22:04 4.2 Yang LeCun 和谢赛宁教授的 MetaMorph 27:46 5. Janus-pro 系统架构 30:59 5.1 Adaptors + Pretained Encoders 31:24 5.2 AutoRegressive Transformer + Rectified Flow Model 33:48 6. 模型训练成了炼金术 37:05 6.1 分成三个阶段来训练 38:58 6.2 每个阶段的时长的配比 40:41 6.3 每个阶段不同类型数据的配比 42:26 7. 训练成本 48:20 8. 两个先进武器迎战最后的决战 51:12 8.1 用流体力学来生成图像 52:45 8.2 当多模态与 MLA 和 MoE 融合 62:48 9. 总结 66:10 1. Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling 2. JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation 3. CogVLM: Visual Expert for Pretrained Language Models 4. MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

68分钟

4k+

李飞飞 50 美元的事情是真的吗

1. 前言 00:00 2. 消息来源 00:44 3. 数据来源 01:36 3.1 五个公开数据集 02:38 3.2 自创两个数据集 04:15 4. 数据处理 05:48 4.1 筛选 05:59 4.2 蒸馏 Google Gemini 是误解 06:21 5. 模型训练 07:29 5.1 通义千问 Qwen2.5-32B 是模型基座 07:32 5.2 SFT 训练产生 s1-32B 模型 08:28 5.3 Budget forcing 09:02 5.4 成本只有 24 美元 10:02 6. 伯克利潘博士的尝试 12:54 6.1 基座也是通义千问，不过模型规模更小，Qwen2.5-3B 13:23 6.2 针对两个简单的数学专项任务 13:54 6.3 成本不到 30 美元 14:31 7. 总结 14:58 参考文献： 1. 李飞飞教授的论文： arxiv.org 2. Berkeley 潘博士的项目： github.com

16分钟

Deepseek 或将颠覆性创新 AI 的使用方式

1. 前言 00:00 2. 传统的 AI 使用方式 00:42 2.1 Agent vs workflow 01:07 2.2 Agent vs RAG 05:11 2.3 RAG 功能模块 09:37 2.4 LangChain、LlamaIndex, AutoGPT 14:54 3. 来自 Deepseek 的颠覆性创新 23:35 3.1 Multi-head Latent Attention (MLA） 24:58 3.2 Mixture of Expert (MoE) 26:49 3.3 SFT + RL 32:55 3.4 Janus 37:34 4. 产品形态 46:23 4.1 Agent as plugin 46:39 4.2 Agent as integrator 50:26 4.3 AI App 52:23 4.4 AI OS 53:13 4.5 AI Cloud 60:30 5. 总结 64:18

65分钟

2k+

轻松理解强化学习之 PPO

想理解 Deepseek 中的 GROP 等强化学习算法，最好先理解强化学习之 PPO 算法，理解 PPO 并不难，只需要先梳理清楚几个概念之间的区别， 1. Reward vs Value vs Advantage, 2. Model-free vs model-based， 3. On-policy vs Off-policy, 4. Policy-based vs Value-based, 然后理解 Advantage Actor Critic (A2C) 算法的设计思路， 1. 构建学生 actor 和导师 critic 两个神经网络， 2. 学生 actor 神经网络，追求 advantage 的优化，是 policy-based 模型， 3. 导师 critic 神经网络，追求全局 value 的最优化，是 value-based 模型， 4. 导师指导学生，从而避免学生过度激进，导致训练崩溃，到这时，理解作为 A2C 模型的改进版 PPO，以及 Deepseek 在 PPO 基础上，进一步做的三个改进，就水到渠成了。

34分钟