AI前沿：从数学推理到模型优化

7分钟 68 11个月前

主播

节目简介

来源：小宇宙

[CL] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

[Shanghai Jiao Tong University]

https://arxiv.org/abs/2506.20512

---

[LG] Overtuning in Hyperparameter Optimization

[LMU Munich]

https://arxiv.org/abs/2506.19540

---

[LG] Distilling Normalizing Flows

[University of Oregon & HSE University & Picsart AI Research]

https://arxiv.org/abs/2506.21003

---

[LG] Gaussian Invariant Markov Chain Monte Carlo

[Google DeepMind & UCL]

https://arxiv.org/abs/2506.21511

外观