评分
暂无评分
0人评价
5星
0%
4星
0%
3星
0%
2星
0%
1星
0%
AI智能总结...
AI 正在思考中...
本集内容尚未生成 AI 总结
简介...
主播...

曲凯
评价...
空空如也
小宇宙热门评论...

啊猴啊
2个月前
北京
24
06:32 人生就是一场强化学习,只不过需要持续探索奖励函数是什么。
不劳而祸
2个月前
天津
19
两位的声音相似度有点高😂有几段抢在一起说话时分不清是谁说的了都

AllenTing
2个月前
广东
15
很多增量信息,又很深入浅出,以后可以多一些类似的访谈

夏天419
2个月前
马来西亚
15
1:01:30 嘉宾好评,期待返场👍
He Elon
2个月前
广东
13
06:13 强化学习的前提是你知道奖励函数是什么,而人生的差别是你不知道这个奖励函数是什么,大部分时间都是在持续探索奖励函数是什么,可能你以为你在朝着奖励函数去优化,但真正到达了发现不是这样

brainzhang
2个月前
山东
11
太棒了。通俗易懂的科普。一遍不过瘾,要再听一遍
明明是我_qz7b
2个月前
广东
6
播客这么硬核的吗?点赞(òωó)👍
Faith要加油
2个月前
未知
6
真大师课!!!值得反复听!

orangeai
2个月前
北京
5
评论太长放不下了,写了一篇文章 https://mp.weixin.qq.com/s/MauX2_WC1Q9iLE4yNYASeQ

kingking8880
2个月前
北京
5
1:12:46 这集真的超赞,讲得好清楚,而且嘉宾讲得好有趣,都想当他学生了🧑🎓申请返场

搞钱搞男人女士
2个月前
湖北
3
有才算了 怎么声音也这么好听 我天 不好意思 跑题了

夏天419
2个月前
马来西亚
2
1:01:59 虽然不能完全听懂,但是就爱听这么一本正经的知识😉
HD999361z
2个月前
广东
2
太好了!是吴老师!没听先来打call

RookieStar
2个月前
北京
2
05:45 人生是一场经历和体验,人追求自我迭代与进化,但往往是原地打转。感觉只有认知水平高的人才有可能去持续探索奖励函数,但它也会随着人的经历变化而发生阶段性变化。奖励函数背后是一套有点逆人性的反馈系统,贵在执行与坚持,但绝大多数人做不到,这点机器比人强多了。曲老师提了一个非常灵魂拷问的问题,发生深思👍
Treewan
2个月前
广东
2
模型变聪明的发现是先写字,再输出结果,实现slow thinking。writing也是人类梳理思维和思考的一种方式
朱缇儿
2个月前
北京
2
主持人问题问的也很好,都问到点上了!

小学生在学习
2个月前
上海
1
真正深入理解问题的人 讨论起来就是这么深入浅出 又一针见血 讲的太好了

小邬的小邬
2个月前
上海
1
播客中提到对于模型来说要“理解”一个东西更难一些,在我看来,“理解”的本质是:像什么但不是什么…不像什么但是什么。
这对于计算机/算法来说很难?为什么?
HD772684e
2个月前
浙江
1
大模型之前的强化学习为什么没有办法应用到agent和机器人:强化学习是决策能力,但理解能力还是要靠预训练。
yan_tLpW
2个月前
江苏
1
这个有文字稿吗