时长:
16分钟
播放:
439
发布:
9个月前
主播...
简介...
1. 前言 00:00
2. 消息来源 00:44
3. 数据来源 01:36
3.1 五个公开数据集 02:38
3.2 自创两个数据集 04:15
4. 数据处理 05:48
4.1 筛选 05:59
4.2 蒸馏 Google Gemini 是误解 06:21
5. 模型训练 07:29
5.1 通义千问 Qwen2.5-32B 是模型基座 07:32
5.2 SFT 训练产生 s1-32B 模型 08:28
5.3 Budget forcing 09:02
5.4 成本只有 24 美元 10:02
6. 伯克利潘博士的尝试 12:54
6.1 基座也是通义千问,不过模型规模更小,Qwen2.5-3B 13:23
6.2 针对两个简单的数学专项任务 13:54
6.3 成本不到 30 美元 14:31
7. 总结 14:58
参考文献:
1. 李飞飞教授的论文:
2. Berkeley 潘博士的项目:
评价...
空空如也
小宇宙热门评论...
听客老张
9个月前
吉林
1
06:46 这里不正确。数据是包含答案的,gemni 是用于生成推理过程,以便形成问题、推理、答案的标准格式
simschen
9个月前
北京
0
您好,请问合作怎么联系呀