https://babi.com/

节目列表: AI可可AI生活 - EarsOnMe - 精选播客,一听即合

AI前沿:从数学推理到记忆注入

AI可可AI生活

本期播客精华汇总 1. Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in MathPhi-4-Mini-Reasoning:探索小型数学推理语言模型的极限通过四阶段训练(大规模蒸馏、微调、偏好优化、强化学习),仅38亿参数的Phi-4-Mini-Reasoning在数学推理上超越70亿-80亿参数模型,揭示小模型需“量体裁衣”的训练策略,反直觉地发现朴素高质量数据可能有害。 2. ParamΔ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost直接权重混合的 ParamΔ:零成本训练后的大型语言模型ParamΔ通过简单权重差值加法,将后训练能力零成本迁移到新基座模型,性能达官方版的95%,为开源社区提供高效模型更新方案,揭示参数空间的代数结构潜力。 3. Model Connectomes: A Generational Approach to Data-Efficient Language Models模型连接组:一种面向数据高效的语言模型的方法受生物进化启发,提出“模型连接组”作为稀疏先验,仅用1亿词数据即可实现高性能语言学习,展现结构先验在数据效率和人脑对齐上的潜力。 4. Memorization and Knowledge Injection in Gated LLMs记忆与门控 LLMs 中的知识注入MEGa框架通过门控LoRA模块注入事件记忆,显著缓解灾难性遗忘,接近RAG性能,展示模块化记忆和内部回忆(iRAG)在持续学习中的前景。 5. AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning OptimizationAdaR1:从长 CoT 到混合 CoT 通过双级自适应推理优化AdaR1通过融合长短CoT模型和双层偏好优化,实现自适应推理,推理长度减半而准确率仅微降,展现“因题施策”的高效推理潜力。 完整推介:https://mp.weixin.qq.com/s/MyQN09CEBe59dbKcL7YEQg

9分钟
99+
9个月前

AI前沿:从并行推理到安全护航

AI可可AI生活

这期《TAI快报》带你走进AI前沿的六个“知识金块”: 1. Learning Adaptive Parallel Reasoning with Language Models:提出自适应并行推理(APR)框架,让AI像团队协作般分头探索,显著提升推理效率和准确率,揭示广度搜索优于深度搜索的洞见。 2. Deep learning with missing data:模式嵌入神经网络(PENN)通过挖掘缺失模式信息,突破传统数据补全的局限,在医疗、金融等领域展现更精准预测潜力。 3. Shannon invariants: A scalable approach to information decomposition:香农不变量框架破解信息分解的计算瓶颈,揭示神经网络中冗余与脆弱的跷跷板动态,为设计鲁棒AI提供新视角。 4. TTRL: Test-Time Reinforcement Learning:测试时强化学习(TTRL)让AI通过自我“多数投票”在无标签数据上自学,数学推理任务准确率飙升159%,展现AI“自举”潜力。 5. LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities:揭示AI决策中的贪婪、频率偏差和知行合一问题,通过强化学习微调提升探索能力,为智能体优化指明方向。 6. A Comprehensive Survey in LLM(-Agent) Full Stack Safety:提出AI全栈安全概念,系统梳理从数据到商业化的安全挑战,强调智能体交互放大的风险,呼吁更严格的评估体系。 完整推介:https://mp.weixin.qq.com/s/zDYfFSacNPFvnYnNt9pROg

12分钟
91
9个月前

AI前沿:从机器人学艺到模型心智

AI可可AI生活

本期《TAI快报》深入探讨了五篇AI前沿论文的关键洞见,剖析了语言模型、机器人学习及神经网络优化的最新进展: 1. Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?强化学习真的在LLMs超越基础模型中激励推理能力吗?清华大学的研究挑战了强化学习(RLVR)能显著提升语言模型推理能力的假设,发现其主要优化采样效率,而非扩展能力边界,提示未来需探索新训练范式。 2. Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models模态链:利用视觉-语言模型从多模态人类视频中学习操作程序Google DeepMind提出“模态链”策略,通过序列化处理多模态人类视频(视觉、音频、肌肉信号),显著提升机器人从单次示教中学习精细操作的能力,强调非视觉模态的价值。 3. Let Me Grok for You: Accelerating Grokking via Embedding Transfer from a Weaker Model让我为你理解:通过从较弱模型进行嵌入迁移加速理解研究通过从弱模型迁移数据嵌入,加速神经网络的“Grokking”过程,消除延迟泛化,揭示数据表示对训练动力学的关键影响。 4. Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning不是所有部署都很有用:在LLM强化学习中下采样部署PODS框架通过最大方差降采样挑选信息丰富的Rollout,解决强化学习计算不对称问题,提升训练效率和性能。 5. Learning to Attribute with Attention学习使用注意力进行属性分配AT2方法学习利用注意力权重预测输入影响,实现高效的语言模型归因,优化问答任务并揭示注意力机制的解释潜力。 完整推介:https://mp.weixin.qq.com/s/LVkr9WKZD-LzZixrVKKMZg

8分钟
99+
9个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧