Album
时长:
17分钟
播放:
301
发布:
10个月前
主播...
简介...
https://xiaoyuzhoufm.com

大家好!这里是「氪地说」第二期。


今天,让我们来聊一个听起来有点魔幻又神秘的话题:“为什么说大模型训练是西方的炼丹术?这种炼丹术和中国古代的占卜又有什么关系”


我们先来回顾这场被称作“大模型革命”的变局。多年来,学术界受到传统统计学的影响,坚信再大的模型,也会过拟合,离真正的泛化性能越来越远,这几乎是写在教科书上的定论。所以当 Google 等大公司把大笔资金投入前沿研究时,他们会非常看重数理推导的“安全边界”,倾向于用新的算法结构或精巧的机制来解决问题,而不会轻易把规模和算力推到极限。


深度学习“炼丹”式的特点,在其早期就已经被学术圈、工业界戏称为“Alchemy(炼金术)”或“黑魔法”等。这种说法并非完全调侃,它折射出了现代深度学习的一部分现实——很多关键决策其实包含了很高的不确定性,需要依赖经验、直觉和“勇气”**来做“超大规模押注”,而不纯粹是从严格的数学推导或商业逻辑里“精算”出来。之所以会出现这样的情况,原因可以概括位:


1、深度学习在某些层面仍缺乏精确的理论保证


• 目前对深度神经网络为何能在过参数化、大数据场景下依然有良好泛化性能,还没有一个完全统一、严谨的理论。


• 因此,大模型究竟能不能训好、要调多少层、多少参数、更换哪些架构,这些决策往往是“试出来”的,而不是从头到尾用公式就能演算确定的。


• **“要多大算力、要多少数据才能收敛到满意效果”**等问题并无放之四海而皆准的标准答案。


• 研究者只知道“模型更大、数据更多”通常有利于提升上限,但会不会出现边际收益递减、乃至跑不出预期效果,很大程度上要看实验结果。


这就造成了“炼丹”式的局面:要做就得投入大量资源先烧起来,否则压根不知道能不能成功


2. 巨头在大额投入前更看重“可预期收益”和“风险可控”


• 对于像 Google 这样成熟的科技巨头,他们需要对股东、管理层、品牌形象负责。一旦要投入几十亿美金来训练一个“还不知道能不能学得好、是否适合大规模商业化”的模型,内部必然会提出无数疑问:


• “训练不成功怎么办?”


• “万一出来效果很差、或者没有明显领先竞争对手,投入就打水漂?”


• “即使效果不错,但跟我们的搜索和广告业务冲突怎么办?”


• “这是不是对于现有生态而言,风险大于机会?”


• 即便 Google 家底殷实,也会考虑大笔资金的ROI。如果这笔投入一旦在短期内无法转化为实际收益,还可能影响现有业务,对股价和市场预期都有潜在负面影响。


所以,当年 Google 即便在内部“炼丹”,也更倾向于先在小范围研究和测试中反复验证,尽可能保证“出手即成功”,而不是像 OpenAI 那种在不确定很高的阶段就“放手一搏”。OpenAI孤注一掷的豪赌更多的不是基于完备的逻辑上,而是经验、勇气、直觉或者可能得到了某种更深层次的暗示有关,这种激进策略在商业史上也能留下一笔,但还是很少有人能把这个过程讲的很透彻,“愿不愿意去炼丹”背后的决策,更像是综合了公司文化、业务结构、风控策略,以及对未来趋势的感性判断。


参考或延伸阅读:


• OpenAI 官方博客中关于 GPT-3 / GPT-4 训练的报告及 Scaling Law 经验总结


• DeepMind/Google 近年来关于大规模模型训练的相关论文


• 2019 年 Jonathan Frankle 等人提出的 “Lottery Ticket Hypothesis”


• 各大脑科学实验室关于人脑可塑性、功能重组的研究


• 部分量子脑、意识物理学的前沿假说,虽非主流,但为“神经网络能否隐藏更深层物理机理”提供想象空间

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧