HuggingFace 每日AI论文速递
10分钟速读热门AI论文

Album
主播:
拨号上网
出版方:
佚名
订阅数:
8,284
集数:
334
最近更新:
5天前
播客简介...
每天10分钟,带您快速了解当日HuggingFace热门AI论文内容。每个工作日更新,欢迎订阅。 📢播客节目在小宇宙、Apple Podcast平台搜索【HuggingFace 每日AI论文速递】 🖼另外还有图文版,可在小红书搜索并关注【AI速递】
HuggingFace 每日AI论文速递的创作者...
HuggingFace 每日AI论文速递的音频...

2025.07.21 | dLLM新型安全漏洞,现有防御不足;俄语语音合成,数据与标注是核心。

本期的 10 篇论文如下: [00:20] 😈 The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs(隐藏在面具后的恶魔:扩散大语言模型的一种新兴安全漏洞) [01:12] 🎤 A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models(解决俄语语音生成模型中语音与韵律挑战的数据中心框架) [02:07] 🧩 Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning(Franca:用于可扩展视觉表示学习的嵌套套娃聚类) [02:49] 🚀 Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models(Mono-InternVL-1.5:迈向更经济、更快速的单体多模态大语言模型) [03:24] 🎨 CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models(CSD-VAR:视觉自回归模型中的内容-风格分解) [04:27] 🚀 RedOne: Revealing Domain-specific LLM Post-Training in Social Networking Services(RedOne:揭示社交网络服务中领域专用LLM的后训练) [05:08] 🤝 Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities(逆向强化学习与大语言模型后训练的结合:基础、进展与机遇) [05:41] 🚫 Mitigating Object Hallucinations via Sentence-Level Early Intervention(通过句子级早期干预缓解物体幻觉) [06:20] ⚡ The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations(生成式能源竞技场 (GEA):在大型语言模型 (LLM) 人工评估中融入能源意识) [07:41] 📈 Quantitative Risk Management in Volatile Markets with an Expectile-Based Framework for the FTSE Index(波动市场中基于期望分位数框架的定量风险管理:以富时指数为例) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

8分钟
41
5天前

2025.07.18 | 优化LLMs上下文;提升视觉语言模型效率

本期的 15 篇论文如下: [00:27] 🧮 A Survey of Context Engineering for Large Language Models(大型语言模型上下文工程综述) [01:16] 🧠 VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning(VisionThink:基于强化学习的智能高效视觉语言模型) [02:08] 📸 $π^3$: Scalable Permutation-Equivariant Visual Geometry Learning($\pi^3$:可扩展的置换等变视觉几何学习) [02:52] 🤖 The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner(模仿游戏:图灵机模仿器是长度泛化的推理器) [03:47] 🖼 AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning(AnyCap项目:一个用于可控全模态图像描述的统一框架、数据集和基准) [04:47] 🧑 Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models(Diffuman4D:基于时空扩散模型的稀疏视角视频的4D一致性人体视角合成) [05:34] 🎭 FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers(梦幻肖像:利用表情增强的扩散Transformer提升多角色肖像动画效果) [06:23] 🧠 MindJourney: Test-Time Scaling with World Models for Spatial Reasoning(心灵之旅:基于世界模型的测试时空域推理扩展) [07:17] 🔬 AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research(AbGen:评估大型语言模型在科学研究的消融实验设计与评估中的能力) [08:08] 🗣 Voxtral(Voxtral:多模态音频聊天模型) [08:55] 💡 Teach Old SAEs New Domain Tricks with Boosting(利用Boosting技术使旧的稀疏自编码器掌握新的领域技巧) [09:46] 💡 FLEXITOKENS: Flexible Tokenization for Evolving Language Models(FLEXITOKENS:用于演化语言模型的灵活分词) [10:49] 🎬 TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation(TLB-VFI:用于视频帧插值的时序感知潜在布朗桥扩散模型) [11:45] 🛡 Automating Steering for Safe Multimodal Large Language Models(多模态大语言模型安全自动导向) [12:25] ⚙ RiemannLoRA: A Unified Riemannian Framework for Ambiguity-Free LoRA Optimization(RiemannLoRA:一种用于无歧义LoRA优化的统一黎曼框架) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

13分钟
73
1周前

2025.07.17 | RAG提升LLM推理;PhysX生成物理3D资产

本期的 13 篇论文如下: [00:26] 🧠 Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs(具身智能RAG与深度推理:LLM中RAG推理系统综述) [01:17] 🧱 PhysX: Physical-Grounded 3D Asset Generation(PhysX:基于物理的3D资产生成) [02:04] 🚗 MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding(MMHU:一个用于人类行为理解的大规模多模态基准) [03:05] 🚀 SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?(SWE-Perf:语言模型能否优化真实世界代码仓库的性能?) [04:00] 💃 MOSPA: Human Motion Generation Driven by Spatial Audio(MOSPA:空间音频驱动的人体动作生成) [04:57] 🏗 DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering(DrafterBench:用于土木工程中任务自动化的LLM基准测试) [05:58] 🤖 Seq vs Seq: An Open Suite of Paired Encoders and Decoders(序列模型对比:一个开放的配对编码器与解码器套件) [06:38] 🎬 AnyI2V: Animating Any Conditional Image with Motion Control(AnyI2V:通过运动控制动画化任何条件图像) [07:34] 🎯 SpatialTrackerV2: 3D Point Tracking Made Easy(SpatialTrackerV2:化繁为简的3D点追踪) [08:27] 🦎 Lizard: An Efficient Linearization Framework for Large Language Models(Lizard:一种用于大型语言模型的高效线性化框架) [09:14] 🧰 Replacing thinking with tool usage enables reasoning in small language models(以工具使用代替思考:小语言模型中的推理能力提升) [10:05] 🧙 AI Wizards at CheckThat! 2025: Enhancing Transformer-Based Embeddings with Sentiment for Subjectivity Detection in News Articles(CheckThat! 2025 挑战赛中的 AI 巫师:利用情感增强的 Transformer 嵌入改进新闻文章中的主观性检测) [10:51] 🧠 RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning(RLEP:基于经验回放的强化学习用于LLM推理) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

12分钟
79
1周前
HuggingFace 每日AI论文速递的评价...

空空如也

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧