HuggingFace 每日AI论文速递 - 2025.08.18 | 超越图像思考；自搜索强化 - EarsOnMe

主播

拨号上网 1 档播客

节目简介

来源：小宇宙

本期的 13 篇论文如下：

[00:19] 💡 Thyme: Think Beyond Images（Thyme：超越图像的思考）

[00:48] 🧠 SSRL: Self-Search Reinforcement Learning（SSRL：自搜索强化学习）

[01:16] 🚀 DINOv3（DINOv3：视觉基础模型新里程碑）

[01:42] 🔍 PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing（PaperRegister：通过分层寄存器索引提升灵活粒度论文搜索）

[02:13] 🚀 XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization（XQuant：通过KV缓存重物化突破LLM推理的内存瓶颈）

[02:40] 🚀 BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining（BeyondWeb：万亿规模预训练中合成数据扩展的经验教训）

[03:09] 🎨 StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation（StyleMM：通过文本驱动的对齐图像翻译实现风格化3D可变形人脸模型）

[03:35] 🌌 TexVerse: A Universe of 3D Objects with High-Resolution Textures（TexVerse：高分辨率纹理3D对象宇宙）

[03:59] 🗣 FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation（FantasyTalking2：面向音频驱动人像动画的时间步-层级自适应偏好优化）

[04:32] 💡 X-Node: Self-Explanation is All We Need（X-Node：自解释即是我们所需的一切）

[04:57] ⚙ Controlling Multimodal LLMs via Reward-guided Decoding（通过奖励引导解码控制多模态大语言模型）

[05:21] ✨ SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation（稀疏数据，丰硕成果：通过类别条件图像转换实现小样本半监督学习）

[05:52] 🌍 MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data（MAESTRO：用于多模态、多时相、多光谱地球观测数据的掩码自编码器）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

在小宇宙查看该单集文稿

2025.08.18 | 超越图像思考；自搜索强化

加入我们的 Discord

扫描微信二维码

播放列表