氪地说 02 大模型性能泛化之谜与炼丹术和占卜

氪地说

大家好!这里是「氪地说」第二期。 今天,让我们来聊一个听起来有点魔幻又神秘的话题:“为什么说大模型训练是西方的炼丹术?这种炼丹术和中国古代的占卜又有什么关系” 我们先来回顾这场被称作“大模型革命”的变局。多年来,学术界受到传统统计学的影响,坚信再大的模型,也会过拟合,离真正的泛化性能越来越远,这几乎是写在教科书上的定论。所以当 Google 等大公司把大笔资金投入前沿研究时,他们会非常看重数理推导的“安全边界”,倾向于用新的算法结构或精巧的机制来解决问题,而不会轻易把规模和算力推到极限。 深度学习“炼丹”式的特点,在其早期就已经被学术圈、工业界戏称为“Alchemy(炼金术)”或“黑魔法”等。这种说法并非完全调侃,它折射出了现代深度学习的一部分现实——很多关键决策其实包含了很高的不确定性,需要依赖经验、直觉和“勇气”**来做“超大规模押注”,而不纯粹是从严格的数学推导或商业逻辑里“精算”出来。之所以会出现这样的情况,原因可以概括位: 1、深度学习在某些层面仍缺乏精确的理论保证 • 目前对深度神经网络为何能在过参数化、大数据场景下依然有良好泛化性能,还没有一个完全统一、严谨的理论。 • 因此,大模型究竟能不能训好、要调多少层、多少参数、更换哪些架构,这些决策往往是“试出来”的,而不是从头到尾用公式就能演算确定的。 • **“要多大算力、要多少数据才能收敛到满意效果”**等问题并无放之四海而皆准的标准答案。 • 研究者只知道“模型更大、数据更多”通常有利于提升上限,但会不会出现边际收益递减、乃至跑不出预期效果,很大程度上要看实验结果。 这就造成了“炼丹”式的局面:要做就得投入大量资源先烧起来,否则压根不知道能不能成功。 2. 巨头在大额投入前更看重“可预期收益”和“风险可控” • 对于像 Google 这样成熟的科技巨头,他们需要对股东、管理层、品牌形象负责。一旦要投入几十亿美金来训练一个“还不知道能不能学得好、是否适合大规模商业化”的模型,内部必然会提出无数疑问: • “训练不成功怎么办?” • “万一出来效果很差、或者没有明显领先竞争对手,投入就打水漂?” • “即使效果不错,但跟我们的搜索和广告业务冲突怎么办?” • “这是不是对于现有生态而言,风险大于机会?” • 即便 Google 家底殷实,也会考虑大笔资金的ROI。如果这笔投入一旦在短期内无法转化为实际收益,还可能影响现有业务,对股价和市场预期都有潜在负面影响。 所以,当年 Google 即便在内部“炼丹”,也更倾向于先在小范围研究和测试中反复验证,尽可能保证“出手即成功”,而不是像 OpenAI 那种在不确定很高的阶段就“放手一搏”。OpenAI孤注一掷的豪赌更多的不是基于完备的逻辑上,而是经验、勇气、直觉或者可能得到了某种更深层次的暗示有关,这种激进策略在商业史上也能留下一笔,但还是很少有人能把这个过程讲的很透彻,“愿不愿意去炼丹”背后的决策,更像是综合了公司文化、业务结构、风控策略,以及对未来趋势的感性判断。 参考或延伸阅读: • OpenAI 官方博客中关于 GPT-3 / GPT-4 训练的报告及 Scaling Law 经验总结 • DeepMind/Google 近年来关于大规模模型训练的相关论文 • 2019 年 Jonathan Frankle 等人提出的 “Lottery Ticket Hypothesis” • 各大脑科学实验室关于人脑可塑性、功能重组的研究 • 部分量子脑、意识物理学的前沿假说,虽非主流,但为“神经网络能否隐藏更深层物理机理”提供想象空间

17分钟
99+
10个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧