【长途巴士25】deepseek对自我养育的启示,拒绝虚假的密集奖励

大家好~本期我们讨论了deepseek带给我们的变化,模型与人类认知的发展,大模型的迭代与人对学习的认识存在着相似的演化过程,从对大模型的演化中也可以得到对自我训练的启示—— 声音地图 * 00:00 deepseek对我们提供的帮助-我们都问过哪些问题! 02:13 朋友妈妈问deepseek如何共情自己的博士孩子 07:40 模型对非传统知识问题的回答 * 13:07 模型的发展过程与人类认知理论的发展过程 14:59 deepseek的推理创新重要来源,使用稀疏奖励的训练方式 31:44 联想到教育中的例子 * 47:29 对我们生活中自我养育的启示 47:29 从认知层面主动剔除虚假奖励 54:11 练习耐受长期无反馈的缓慢过程 59:06 不需要基于反馈频繁调整方向 01:04:03 进入真实世界 模型发展时间线 * 2017年,OpenAI的Paul F. Christiano等人在的一篇论文中正式提出的「强化学习」(RLHF)的概念,它指的是,通过人工标注的偏好数据训练模型,指导模型生成符合人类价值观的文本。 * 2023年,思维链(Chain-of-Thought)技术被广泛应用,通过将复杂任务分解为多步推理,模型仅通过少量示例即可学习到任务内在逻辑,从而减少对每一步反馈的需求,初步降低了对密集奖励的依赖。 * 2024年12月,OpenAI发布强化微调技术(Reinforcement Fine-Tuning, RFT),让模型通过少量示例学习推理模式,而非简单模仿输入数据。RFT通过稀疏奖励(如任务完成度的二元反馈)驱动模型自主探索解决方案,显著提升了复杂任务的泛化能力。 * 2025年,DeepSeek R1模型验证了后训练阶段稀疏奖励的scaling law,即模型规模扩大后,稀疏奖励仍能有效提升性能。这打破了传统密集奖励对数据量的依赖,推动大模型向更复杂、开放的任务发展。 人类学习认知相关理论 * 「刺激-反应」理论,也称作「学习的联结理论」,认为学习是通过刺激和反应之间的联系形成的。这个理论强调重复和条件反射在学习中的作用。代表人物伊万·巴甫洛夫(Ivan Pavlov)、约翰·华生(John B. Watson)、斯金纳(B.F. Skinner)。 * 顿悟学习,它不是通过反复尝试或条件反射,而是通过突然意识到问题的解决方法。代表人物沃尔夫冈·苛勒(Wolfgang Köhler) * 建构学习,学习是一个主动构建知识的过程,而不是被动接受信息。你通过自己的经验、思考和与环境的互动,逐步建立起对世界的理解。这个理论强调学习者主动参与和个性化理解,每个人的学习过程都是独特的。代表人物让·皮亚杰(Jean Piaget)和列夫·维果茨基(Lev Vygotsky) 相关概念 * 虚假自体与真实自体 真实自体,是一个人真实的自我,包括他/她的真实感受、想法和需求。真实自体是人在没有外界压力或伪装的情况下自然表现出来的状态。 虚假自体,是为了适应外界环境或满足他人期望而表现出来的自我。虚假自体可能掩盖了真实的情感和需求,通常是为了获得认可或避免冲突。 * 内部动机与外部动机 内部动机,指的是一个人因为内心的兴趣、满足感或成就感去做某件事。比如,一个人因为喜欢画画而画画,而不是为了得到别人的夸奖或奖励。 外部动机,是为了获得外部的奖励或避免惩罚而去做某件事。比如,一个人为了得到奖金或避免批评而工作。 * 主体性,指的是一个人作为独立个体的自主性和自我意识。拥有主体性的人能够独立思考、做出决定,并对自己的行为负责。一个人能够意识到自己是自己行为的主人,而不是被动地受外界影响。 * 鲁棒性,指的是一个系统或物体在面对外界干扰或变化时,仍然能够保持稳定和正常运作的能力。 * 趋同进化,在生态学中,亲缘关系较远的生物,在相似环境中独立演化出了相似形态或者功能的现象。 相关内容 【长途巴士02】欢迎来到真实世界 《deepseek模型训练给人类的启示——拒绝密集的虚假奖励》 牧田基于本期主题的写作文章 🎵 开头 Explosions in the Sky - Your Hand in Mine (The Polish Ambassador Remix) The Polish Ambassador 中间垫乐 Sæglópur迷失大海 Sigur Rós 结尾 星际穿越(钢琴版)Jcy East 剪辑制作 by 认真负责可爱的Daisy 我们是谁 牧田,一个具有好奇心和生命力的人,心理学与自然博物深度爱好者,互联网从业者,也曾做过人物记者,对AI持续探索中,也希望为这个世界建立更多连接 梓彤,以深入理解世界、与人建立深度关系为长期目标的正念练习者 关于播客 「长途巴士」是一档从生活体验出发,借助心理学与更多维度视角,尝试找到更深入的理解已经与之共处方法的播客。我们愿意走入真实世界,愿意进行长途旅行。 如果你想跟我们建立更长期的关系,欢迎加入社群(售票员微信:changtubus),一起远行。 此外我们已经建立微信公众号「长途巴士播客」并在微信「听一听」中同步发布播客内容,欢迎订阅,一起出发!

73分钟
99+
1个月前

【长途巴士24】2024年终总结——现代人的命运 健康的攻击性 与拖延探索

朋友们新年好!在美剧《this is us》(中文名:我们这一天)中,叔叔送给侄女一幅自己的画,上面是很多条线纵横交错,他解释这就像人生一样,有一些关系在不断变化,也有一些课题在出现,它们总是在不断地交织变化。 今年年初,牧田和梓彤重新回顾了过去一年,我们发现我们各自有记录和回顾这一年的方式,感到活得更清楚,也在碎片化的记录中,逐渐的看到一些线正在产生神奇的变化,因此我们分享自己的记录方式与课题的探索,以及创造一点年度仪式感。 祝大家新年快乐,对生活有更清楚的感知与更具体的期待,与自己生命中出现的线共舞。 💡【声音地图】 00:29 记录一年的方式,life wiki,五年日记,情绪日记 21:00 课题之一,接受现代人的命运 38:45 课题之二,建立健康的攻击性 1:03:36 课题之三,探索拖延 1:11:30 形成对具体的行动、复杂的过程的很深的信任 1:21:49 牧田的年度人物 孙颖莎 刘小样 1:27:01 梓彤的年度之书 《不原谅也没关系》 1:36:10 对未来一年的具象期待 👀【文中提到】 《笔记的方法》刘少楠 刘白光 《不原谅也没关系》[美]皮特·沃克 牧田分享的life wiki模板life wiki模版共享 🎵 Welcome To The Jungle - Guns N' Roses Thunder - Imagine Dragons Running Up That Hill (A Deal With God) - Kate Bush 卡农(木吉他独奏版) - Various Artists Letting Go - Hollow Coves 🎤【本期制作】 牧田,博物与心理学爱好者,大厂产品运营、曾为人物记者,希望携带这些创造出新的东西。致力于为世界创造出更多的「弱连接」。 梓彤,北大心理学博士在读,持续正念修行者,不断与情绪共处 【加入社群】 如果你想跟我们建立更长期的关系,欢迎加入社群,一起探索更多,售票员微信:changtubus。 🚌【关于播客】 这是一档从生活出发,从心理学视角观察,并尝试找到与之共处方法的播客。这也是一场长程旅程,欢迎与长途巴士以及乘客们一起,踏上旅途。

109分钟
99+
3个月前

【长途巴士23】攀岩×心理,我把保守拉开,跃入不确定性,探索省力的哲学

hey朋友们,本期是由「长途巴士」开始攀岩一年半的牧田与「问题不大」的主播不二串台一起聊了聊攀岩所带来的改变与启发,我们从如何面对自身的恐惧,建立自我效能感,聊到了如何与不确定性共处,以及从攀岩中获得的「省力的哲学」与对「专注」的治疗,甚至在攀岩中扩展自己思维边界的探索。这像是一场借助攀岩的具象感知,进行自我扩展和拉伸的探索之旅。 💡【声音地图】 00:02:43 Part 1 面对自己的恐惧 * 基因里的警铃 * 效能感的积累 00:20:14 Part 2 与不确定性相处 * 对保守的拉伸 * 「大脑觉得做不到」和「真实能不能做到」的区分 00:32:49 Part 3 省力的哲学 * 「找到适合你的省力的方式」 * 冲刺一阵休息一阵更符合人类特性 * 复利的重点在于不要打断复利 00:46:46 Part 4 专注的治疗 * 心流与无我的状态 * 正念的小练习 00:59:50 Part 5 思维的边界 * 语言的边界 * 主动的选择语言来影响思维方式 * 身体思维的边界 01:12:33 Part 6 攀岩正念团体的活动尝试 * 「在场」的体验 * 建立更多的「弱连接」 👀【文中提到】 纪录片《徒手攀岩》导演 金国威、伊丽莎白·柴·瓦沙瑞莉 《我与攀岩》by 牧田 (公众号 牧田的探索之旅) 🎵 片头:The Answer-UNKLE / Big in Japan 中间部分 Sunset Wednesdays 2019 Sonic Experience-Laraaji 片尾:我要的幸福-孙燕姿 🎤【本期制作】 主播 牧田@长途巴士,攀岩一年半的练习者,希望增加世界上的弱连接 主播 不二@问题不大,尝试知行合一的心理学发烧友,小红书@不二爱心理 剪辑制作 在深圳看到了烟花的Daisy 【加入社群】 如果你想开启自己的攀岩&自我探索体验,欢迎加入社群,我们会在社群中不定期举办攀岩体验活动,并且大家也可以在社群中相互结伴寻找搭子。 加群方式:添加长途巴士售票员(微信:changtubus)或不二工作微信(微信:buerwonder),备注加入攀岩社群 特别感谢香蕉攀岩为听友提供10张价值99元的入坑体验券,可以由专业教练带领大家开启攀岩。香蕉攀岩的北京上地店、北京768店,深圳后海汇店,长沙珠江星环店都将可以进行体验。 我们将在上述社群中抽奖送出。

84分钟
99+
6个月前

【长途巴士 21】应对无力感的有力武器:习得乐观

Hello大家好!好久不见!我们回来啦!这一期是窝在牧田新家的沙发上录的!我们聊了无力、孤独、失控、疲惫的感受,也聊了很多应对无力感的有力武器,我们从很多小的行动改变中获得了逃出无力漩涡的巨大力量,最后半段越聊越有力,越聊越嗨!也希望把这种力量传递给大家!!❤️ 那么,在这期节目,你将听到: * 我们的无力像是:匆忙的通勤、滚筒洗衣机、巨大的漩涡 * 我们的有力的来源:和反刍思维辩论、习得乐观、真实具体的小行动替代过度思考、向大脑输入积极样本、与每天遇到的人增加真实连接 💡【声音地图】 00:03 先导 03:46 我们的无力和失控:像是永远在匆忙的通勤、失控地被卷入滚筒洗衣机甩干、习得性无助实验中无论如何努力都于事无补的狗 12:54 “外在未来处境没有希望”和“内在自己的能力不足”,我们好像更容易接受后者,随后陷入习惯性反刍 20:28 所有事情到最后,我们都有能主动选择的空间,最后最后,我们也能选择对事情的看法 22:24 让身体行动走在过度思考的大脑之前,给大脑输入正向的样本去平衡那些负性的想象,调节大脑的预测模型 29:37 从每天都会遇到的人开始,我们可以和他们建立些真实的连接:和保安小哥打招呼,和快递小哥笑着说谢谢 33:32 牧田在岩馆里交朋友:主动建立连接,鼓励支持陌生人 35:23 除了习得性无助,我们也可以习得乐观! 👀【延伸阅读】 【本刊项飙专访(上)】年轻人如何从现实中获得力量? 【本刊项飙专访(下)】年轻人在寻找自己在这个世界上的存在方式和意义 马丁·塞利格曼著作:《习得性无助》《真实的幸福》《持续的幸福》 🚌【关于播客】 这档播客是基于自我觉察与探索,心理学知识,以及社会观察为视角进行的聊天,选题始于观察与困惑 🎤【本期主播】 牧田,曾做过《人物》记者与字节运营,在gap后刚刚重新上班啦~(公众号:牧田的探索之旅)元认知,如何影响与改变我们 梓彤,北大心理学博士在读,四年&未来持续正念修行者 当然啦,我们首先是我们自己~ 📢【重要通知】 「长途巴士🚌」已经建立听友群啦~欢迎加售票员微信「changtubus」,一起远行!

40分钟
99+
11个月前

【长途巴士20】这是一份大厂gap1年9个月的诚实报告

朋友们~好久不见,更新一个小进展,我(牧田)要重新开始大厂工作了 在此之前,我进行了历时1年9个月的gap探索之旅,这之中经历了非常丰富的体验,像婴儿学习走路一般学习休闲;像被给予充足阳光和水分的植物一样发展兴趣;同时也时刻体会着只有自己了解的苦涩,孤独之苦,惶恐之苦,直面自己的阴影,再也找不到替罪羊之苦...这些经验和体会都让我感觉一步一步走进真实世界,满身泥泞,为自己负责。 非常想坦诚地把这个历程分享出来,本期邀请了同样经历了gap历程并依然在进行中的「除你武器」主播小吴,让我们一起深入探讨碰撞其中感受。 (对了,播客还会持续更新的,别担心~保持联络!!!) 🎧【本期主播与嘉宾】 牧田:曾经的互联网从业者,练习时长1年9个月的gap行路人,即将回归互联网,也将创造出更多可能性(公众号@牧田的探索之旅) 小吴:媒体人,练习时长六个月的gap新人,一个依然成为了媒体人的理科状元,两次获得国际非虚构标杆奖项「全球真实故事奖」提名(微博@吴可奉告_) 📝【本期要点】 —— 1.0阶段:离开前传 —— 04:52 外面的进度条拉到GPT-4了,我怎么还困在原地 13:13 鸭脚木都能长成一棵小树,如果给我阳光和水,我会长成什么样子? 16:12 不知道要去哪,只知道我要出发 17:45 听说我入职大厂,二叔站起来敬了我一杯 —— 2.0阶段:关掉导航 —— 18:54 上班是点特惠套餐,gap就得自选了 21:21 裸辞第一个月,我沿用OKR,把自己累得够呛 25:56 好学生就是接球接太好了,忘了自己可以不接球 32:33 盲盒开出来大便,但体验能记得一辈子啊 33:44 在十字路口的路线有无数种,因为随时可以折返 —— 3.0阶段:直面自我 —— 39:22 Sorry!真没办法骂老板了 42:31 为了逃避人生,我躲进工作里 46:23 离开封闭的办公室,我第一次感受到流动的风 52:33 转过头面对自己的恐惧,原来恐惧会消失 01:01:18 “只有……才……”的句式,在我这儿不成立了 —— 4.0阶段:把手弄脏 —— 01:11:06 当预言家很爽,因为不用实干啊 01:13:57 gap第二年,我在小红书上卖货了 01:21:27 我的精神洁癖被满身泥点子治好了 01:23:03 走出来,才发现自己只窥见世界的门缝 01:25:07 竞争和要赢对我是有限游戏里的旧词了 —— 5.0阶段:重新接入 —— 01:26:10 我不再觉得有happy ending,但会一直连载下去 01:28:20 面对世界,我的工具箱里不再只有一件装备 01:34:54 清醒的苦,孤独的苦,都是我自己选的路 01:36:01 回去上班,怎么就不算一种选择呢 📚【本期提到】 * 《攒够一百万我就会有松弛感了吗》 * 《不原谅也没关系》 皮特·沃克 * 《历史的面孔》 徐涛 * 《怪奇物语》 肖恩·利维、马特·达菲 🎵 All music credits to: 片头:迷路天才 - 薛凯琪 片尾:淋雨一直走 - 张韶涵 ✂️【本期剪辑】 小舟:一个可爱的宝宝,梦想变成萨摩耶 📢【重要通知】 「长途巴士🚌」已经建立听友群啦~欢迎加售票员微信「changtubus」,一起远行! 🚌【关于播客】 这档播客是基于自我觉察与探索,心理学知识,以及社会观察为视角进行的聊天,选题始于观察与困惑,与乘客一起向内探索

100分钟
99+
1年前

【长途巴士16】和钱的关系:关于匮乏、有用、扩张、对立和另外一些可能

大家好!本期牧田做客「除你武器」,和shiyu、小吴一起探讨与金钱的关系。我们在充满阳光的房间里聊自己的省钱小妙招,也重新正视自己的匮乏感,以及与之相关的思维模式。 🎤【本期主播】 小吴:媒体人,沐浴大理免费阳光中(微博@吴可奉告_) shiyu:媒体人,清点存款中(微博@-冷水鱼) 牧田:心理学与自然爱好者,大厂员工自我探索进行时(公众号-牧田的探索之旅) 💡【声音地图】 03:40 双十一我一分钱都没有花 04:45 我做梦梦到给自己买了一份肯德基 05:13 闲鱼、拼车、霸王餐,希尔顿,省钱抠门技巧大公开! 13:45 只要存款数没有增加,我就感到危险,存钱让我获得缥缈的安全感 18:26 就算有了钱,我还是觉得自己一无所有。我好像其实享受苛责自己 23:15 如果无法通过花钱来获得快乐,那么什么东西能够带给我快乐呢? 28:17 如果存款砰地变成100万,我是不是就会变成另一个人? 29:30 财务自由具体的样子是什么呢? 33:30 跟朋友在一起的时候,其实我并不抠门 36:44 对别人好更容易,对自己更难 36:09 我见过的真正的有钱人 44:13 条件思维:只有...我才能... 47:20 就像夸大苦难一样,我们也会夸大和扭曲对快乐的想象 48:26 对金钱的另一个理解,将它作为我这个国家的武力建设 51:09 消费快乐的平替:日出日落是免费的 53:56 虽然我是金钱的穷人,但我也是时间的穷人呀 53:19 我需要为自己的呼吸挣合法性,好像到死都必须是一个“有用”的人 54:16 各个层面的匮乏都可能限制我们,尝试寻找一种流动可持续的状态 55:20 小吴的地理套利尝试 57:30 我的快乐建立在他人的认可上 58:26 当gap失去社会认可之后,重新理解自己的价值是什么 1:03:27 有可能你的朋友不需要你,但是依然可以爱你 1:04:35 「拥有」的东西太多时,有可能会压迫到「存在」 1:05:30 「有」和「没有」,看起来穷举了,但只是理解世界的一种维度 1:06:01 免费的阳光不在于「不花钱」就能拥有,而是「它的存在」也可以带给你快乐 1:06:11 「不扩张就覆灭」只是资本主义的游戏模式 1:06:58 尝试晃动自己的思维模式 1:08:48 尝试给自己习得正向的机会 1:04:24 钱的牢固框架让我重新对自己特别信奉的事情保持怀疑 1:11:37 将二元对立转化成一条连续的光谱 1:13:16 爱让事物模糊,这可能也是我们需要爱的原因 📚【本期提到】 * 《抠门的艺术:穷人世界生存指南》(www.xiaoyuzhoufm.com) * 《金钱心理学:财富、人性和幸福的永恒真相》 摩根·豪泽尔 * 《东京八平米》 吉井忍 * 《穷爸爸,富爸爸》 罗伯特·清崎、莎伦·莱西特 * 《贝克汉姆》 费舍·史蒂芬斯 * 康堤微博(链接:weibo.com) * 《一个青年劳动者的19份痛苦肖像》(链接:mp.weixin.qq.com) * 《货币哲学》 齐美尔 * 《【随机波动122】再见爱人,再见张春》(链接:www.xiaoyuzhoufm.com) 🎵 All music credits to: 片头:如果有一天我变得很有钱 - 毛不易 片尾:Money Power Glory - Lana del Rey 🚌【关于播客】 基于自我觉察与探索,心理学知识,以及社会观察为视角进行的聊天,选题始于观察与困惑。主播牧田,做过《人物》记者与字节运营,目前gap自我探索中。主播梓彤,北大心理学博士在读,四年&未来持续正念修行者。 📢【重要通知】 欢迎添加我们的微信changtubus,加入长途巴士乘客社群,一起开启长途旅行!

75分钟
1k+
1年前

【长途巴士15】睡眠是温暖又安全的天堂 失眠是寂静又孤独的铁箱

Hello大家好!这一期我们想和大家聊聊睡眠。梓彤经常受到不规律睡眠的困扰,而牧田享有非常健康和稳定的睡眠,但她也曾经因为自己睡得太久而感到困扰。 那么,在这期节目,你将听到: * 我们如何认识和调整自己的睡眠困扰 * 有关睡眠的有趣、有用的知识 💡【声音地图】 00:42 聊聊我们自己的睡眠 08:44 有关睡眠的科学知识 * 人类的睡眠节律 * 睡眠的价值 * 不同人的睡眠需求存在差异——减少偏离“常模”的羞耻感 * 动物的睡眠好有趣 21:18 改善失眠的心理学建议 * 记录睡眠日记 * 心理教育 * 摆脱我一定需要多少睡眠时长的旧观念 * 生物钟、体温和衰老会影响睡眠 * 当你没有睡够,不能去补觉、小睡,身体有自然恢复的机制,会在没睡够的时候睡的更沉、更香、更长时间。 * 行为改变 * 选择一个固定的起床时间 * 床只用来睡觉 * 在床上不要焦虑或者做计划 * 睡不着的时候起床 * 避免白天小睡 * 认知调整 * 不把入睡的时间用来解决问题和担忧 * 挑战有关睡眠的灾难化想法 🚌【关于博客】 这档播客是基于自我觉察与探索,心理学知识,以及社会观察为视角进行的聊天,选题始于观察与困惑 🎤【本期主播】 牧田,做过《人物》记者与字节运营,目前在gap自我探索阶段。(公众号:牧田的探索之旅)元认知文章 梓彤,北大心理学博士在读,四年&未来持续正念修行者 当然啦,我们首先是我们自己~

45分钟
99+
1年前

【长途巴士14】10个曾经误导我们的权威观念

🍃在这期节目,你将听到: 10个我们亲身经历,曾被误导,又经过学习和自己经验的验证推翻的知识/观念/文化认同 💡【声音地图】 对自己的认识和接纳 01:14 1. 我们都是绝对理性,追求利益最大化的人吗?——经济学的理性人假设 06:26 2. 只有满足低层需求才能追求高层次需求吗?——马斯洛的需要层次理论 08:52 3. 我成为如今这样都怪他们——原生家庭的谬误 12:06 4. 学了心理学,就能完全屏蔽情绪了吗?——情绪的存在意义 日常行事 23:52 5. 激进行事,追求卓越——激进的风险与代价 30:40 6. 吃得苦中苦,方为人上人——受苦的迷思 45:05 7. 我真的是太忙了——忙碌的隐性回避 48:30 8. 你是怎么睡得着的?——休息的正当性 58:10 9. 强烈的目标导向能有助于成功吗?——动机与效率的关系 方向的探寻 1:08:02 10.「你没有任何天赋」——如何理解天赋与擅长 📢【重要通知】 「长途巴士🚌」已经建立听友群啦~欢迎加售票员微信「changtubus」,一起远行! 🚌【关于播客】 这档播客是基于自我觉察与探索,心理学知识,以及社会观察为视角进行的聊天,选题始于观察与困惑 🎤【本期主播】 牧田,心理学与自然爱好者,曾任记者和运营,公众号「牧田的探索之旅」元认知文章 梓彤,北大心理学博士在读,四年&未来持续正念修行者 当然啦,我们首先是我们自己~ 最后祝大家中秋快乐!一起分享听友小JO的作品吧~~

78分钟
1k+
1年前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧