评分
暂无评分
0人评价
5星
0%
4星
0%
3星
0%
2星
0%
1星
0%
AI智能总结...
AI/summary > _
AI 正在思考中...
本集内容尚未生成 AI 总结
简介...
https://xiaoyuzhoufm.com
主播...
曲凯
评价...

空空如也

小宇宙热门评论...
啊猴啊
2个月前 北京
24
06:32 人生就是一场强化学习,只不过需要持续探索奖励函数是什么。
不劳而祸
2个月前 天津
19
两位的声音相似度有点高😂有几段抢在一起说话时分不清是谁说的了都
AllenTing
2个月前 广东
15
很多增量信息,又很深入浅出,以后可以多一些类似的访谈
夏天419
2个月前 马来西亚
15
1:01:30 嘉宾好评,期待返场👍
He Elon
2个月前 广东
13
06:13 强化学习的前提是你知道奖励函数是什么,而人生的差别是你不知道这个奖励函数是什么,大部分时间都是在持续探索奖励函数是什么,可能你以为你在朝着奖励函数去优化,但真正到达了发现不是这样
brainzhang
2个月前 山东
11
太棒了。通俗易懂的科普。一遍不过瘾,要再听一遍
明明是我_qz7b
2个月前 广东
6
播客这么硬核的吗?点赞(òωó)👍
Faith要加油
2个月前 未知
6
真大师课!!!值得反复听!
orangeai
2个月前 北京
5
评论太长放不下了,写了一篇文章 https://mp.weixin.qq.com/s/MauX2_WC1Q9iLE4yNYASeQ
kingking8880
2个月前 北京
5
1:12:46 这集真的超赞,讲得好清楚,而且嘉宾讲得好有趣,都想当他学生了🧑‍🎓申请返场
搞钱搞男人女士
2个月前 湖北
3
有才算了 怎么声音也这么好听 我天 不好意思 跑题了
夏天419
2个月前 马来西亚
2
1:01:59 虽然不能完全听懂,但是就爱听这么一本正经的知识😉
HD999361z
2个月前 广东
2
太好了!是吴老师!没听先来打call
RookieStar
2个月前 北京
2
05:45 人生是一场经历和体验,人追求自我迭代与进化,但往往是原地打转。感觉只有认知水平高的人才有可能去持续探索奖励函数,但它也会随着人的经历变化而发生阶段性变化。奖励函数背后是一套有点逆人性的反馈系统,贵在执行与坚持,但绝大多数人做不到,这点机器比人强多了。曲老师提了一个非常灵魂拷问的问题,发生深思👍
Treewan
2个月前 广东
2
模型变聪明的发现是先写字,再输出结果,实现slow thinking。writing也是人类梳理思维和思考的一种方式
朱缇儿
2个月前 北京
2
主持人问题问的也很好,都问到点上了!
小学生在学习
2个月前 上海
1
真正深入理解问题的人 讨论起来就是这么深入浅出 又一针见血 讲的太好了
小邬的小邬
2个月前 上海
1
播客中提到对于模型来说要“理解”一个东西更难一些,在我看来,“理解”的本质是:像什么但不是什么…不像什么但是什么。 这对于计算机/算法来说很难?为什么?
HD772684e
2个月前 浙江
1
大模型之前的强化学习为什么没有办法应用到agent和机器人:强化学习是决策能力,但理解能力还是要靠预训练。
yan_tLpW
2个月前 江苏
1
这个有文字稿吗
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧