[LG] Tversky Neural Networks: Psychologically Plausible Deep Learning with Differentiable Tversky Similarity [Stanford University] https://arxiv.org/abs/2506.11035
[CL] You Only Fine-tune Once:Many-Shot In-Context Fine-Tuning for Large Language Model [Google & University of Florida] https://arxiv.org/abs/2506.11103
现代人的焦虑很大程度源于不断的比较。我们习惯用别人的成就来衡量自己,这种"比较"就像快乐的小偷,偷走了本该属于我们的幸福感。
[CL] Draft-based Approximate Inference for LLMs [FuriosaAI & UW-Madison] https://arxiv.org/abs/2506.08373
[LG] On the Similarities of Embeddings in Contrastive Learning [Yonsei University] https://arxiv.org/abs/2506.09781
[LG] Sequential-Parallel Duality in Prefix Scannable Models [MIT CSAIL & Technical University of Munich] https://arxiv.org/abs/2506.10918
[LG] Self-Adapting Language Models [MIT] https://arxiv.org/abs/2506.10943
[LG] CoRT: Code-integrated Reasoning within Thinking [University of Science and Technology of China & Qwen Team & The Chinese University of Hong Kong] https://arxiv.org/abs/2506.09820
[LG] Intention-Conditioned Flow Occupancy Models C Zheng, S Park, S Levine, B Eysenbach [Princeton University & UC Berkeley] 本文提出的Intention-Conditioned Flow Occupancy Models (InFOM)通过创新性地结合潜在意图推断与基于流匹配的未来状态占有率建模,并在预训练中优化ELBO、在微调中使用隐式广义策略改进,成功地从未标记的异构离线数据中学习到了能够显著提升下游任务性能的RL基础模型,特别是在处理用户意图多样性和长期时间依赖性方面展现了巨大潜力。 https://arxiv.org/abs/2506.08902
[LG] Solving Inequality Proofs with Large Language Models J Sheng, L Lyu, J Jin, T Xia... [Stanford University & UC Berkeley] 本文通过构建一个包含奥林匹克级别不等式的新数据集IneqMath,并设计了一套包含最终答案和详细步骤审查的LLM即评判者评估框架,揭示了当前顶尖大语言模型在解决不等式问题时普遍存在的“答案可能正确但推理过程往往不严谨”的巨大鸿沟,并指出模型规模和计算量扩展对此改善有限,而定理指导和自我修正等策略展现了提升的潜力。 https://arxiv.org/abs/2506.07927
[LG] Reinforcement Learning Teachers of Test Time Scaling E Cetin, T Zhao, Y Tang [Sakana AI] 本文通过提出强化学习教师(RLTs)框架,创新性地将RL教师模型的任务设定为在已知问题和答案的前提下生成优质解释,并利用基于学生理解度的密集奖励进行训练,从而高效地生成了无需后处理的高质量蒸馏数据,不仅显著提升了下游学生模型在复杂推理任务上的性能,甚至在零样本跨领域迁移和RL冷启动方面取得了超越传统方法的反直觉成果。https://arxiv.org/abs/2506.08388
本期《TAI快报》深入探讨了五篇AI领域的前沿论文,揭示了多项关键进展: * 《Kernel Quantile Embeddings and Associated Probability Metrics》提出了一种基于分位数的新方法,突破传统分布比较的局限,在高维数据上更鲁棒。 * 《New Perspectives on the Polyak Stepsize: Surrogate Functions and Negative Results》通过代理函数视角,揭示了Polyak步长自适应性的来源及其在目标估计偏差下的潜在风险。 * 《Reasoning LLMs are Wandering Solution Explorers》指出大型语言模型在推理中更像“游荡者”,呼吁关注推理过程的系统性。 * 《MuLoCo: Muon is a practical inner optimizer for DiLoCo》展示了Muon优化器如何在分布式训练中将通信量减少八倍,同时保持甚至提升性能。 * 《Do Large Language Models (Really) Need Statistical Foundations?》论证了统计学对语言模型发展的必要性,尤其是在处理不确定性和黑箱特性时。 完整推介:https://mp.weixin.qq.com/s/n0XpzODh9ZXwHMih5_tlhw
与播客爱好者一起交流
播放列表还是空的
去找些喜欢的节目添加进来吧