节目列表: HuggingFace 每日AI论文速递 - EarsOnMe

2025.12.17 | MMGR揭多模态推理短板；WorldPlay保几何一致实时建模

本期的 15 篇论文如下： [00:23] 🧠 MMGR: Multi-Modal Generative Reasoning（MMGR：多模态生成式推理评估与基准） [01:14] 🎮 WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling（WorldPlay：面向实时交互式世界建模的长期几何一致性研究） [01:47] 🤖 Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?（视频真实性测试：AI生成的ASMR视频能否欺骗视觉语言模型与人类？） [02:46] 🎨 Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling（Scone：通过统一理解-生成建模桥接主题驱动图像生成中的组合与区分） [03:29] 🤖 RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics（RoboTracer：视觉语言模型在机器人学中掌握基于推理的空间轨迹追踪） [04:13] 📊 OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value（OpenDataArena：一个用于基准测试训练后数据集价值的公平开放平台） [04:50] 🎨 Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure（矢量棱镜：通过分层语义结构实现矢量图形动画） [05:36] 🧊 Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views（揭示隐藏陷阱并从任务中心视角导航下一代向量相似性搜索） [06:14] 🧠 RecGPT-V2 Technical Report（RecGPT-V2 技术报告） [07:04] 📊 ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement（ShowTable：通过协作反思与精炼解锁创意表格可视化） [07:43] 🎬 MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives（MemFlow：用于一致且高效长视频叙事的自适应记忆流） [08:22] 🧠 VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse（VersatileFFN：通过自适应宽深复用实现大语言模型的参数高效性） [09:04] 🎨 Feedforward 3D Editing via Text-Steerable Image-to-3D（基于文本可操控图像到三维的前馈式编辑方法） [09:52] 🤖 A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning（A4-Agent：一种用于零样本可供性推理的智能体框架） [10:26] 🎬 SS4D: Native 4D Generative Model via Structured Spacetime Latents（SS4D：基于结构化时空潜在表示的本地4D生成模型）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

99+

4个月前

2025.12.16 | 代理记忆三维框架；VTP刷新生成纪录

HuggingFace 每日AI论文速递

本期的 15 篇论文如下： [00:20] 🧠 Memory in the Age of AI Agents（人工智能代理时代下的记忆） [00:57] 🚀 Towards Scalable Pre-training of Visual Tokenizers for Generation（迈向可扩展的视觉分词器预训练用于生成任务） [01:42] 🎬 LongVie 2: Multimodal Controllable Ultra-Long Video World Model（LongVie 2：多模态可控超长视频世界模型） [02:41] ⚡ ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding（ReFusion：一种具有并行自回归解码能力的扩散大语言模型） [03:11] 🧪 NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents（NL2Repo-Bench：面向编码智能体长周期仓库生成能力的评估） [03:53] ⚡ Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics（无误差线性注意力是免费午餐：基于连续时间动力学的精确解） [04:29] 🎬 KlingAvatar 2.0 Technical Report（KlingAvatar 2.0 技术报告） [05:17] 🧠 QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management（QwenLong-L1.5：实现长上下文推理与记忆管理的后训练方法） [05:57] 🧠 MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment（MentraSuite：用于心理健康推理与评估的大型语言模型后训练） [06:35] 🤖 Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge（Openpi Comet：2025 BEHAVIOR挑战赛竞赛解决方案） [07:14] 🤖 Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos（通过人类视频中的视觉-物理对齐实现空间感知的VLA预训练） [07:46] 🔍 V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions（V-REX：基于问题链的探索性视觉推理基准测试） [08:30] 👁 Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection（迈向动态视觉：学习基于视觉的主动视角选择） [09:14] 🌳 WebOperator: Action-Aware Tree Search for Autonomous Agents in Web Environment（WebOperator：面向Web环境中自主智能体的动作感知树搜索方法） [09:58] 🛡 VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer（VLSA：具有即插即用安全约束层的视觉-语言-动作模型）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

99+

4个月前

2025.12.15 | 牙科小模型逆袭；扩散模型弃VAE

HuggingFace 每日AI论文速递

本期的 14 篇论文如下： [00:22] 🦷 DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry（DentalGPT：激励牙科领域多模态复杂推理） [00:53] 🎨 SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder（SVG-T2I：无需变分自编码器即可扩展文本到图像潜在扩散模型） [01:41] 🎥 EgoX: Egocentric Video Generation from a Single Exocentric Video（EgoX：从单视角外中心视频生成自我中心视频） [02:26] 🎬 V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties（V-RGBX：基于内在属性精确控制的视频编辑） [03:03] 🔍 Sliding Window Attention Adaptation（滑动窗口注意力适应） [03:43] 🎬 PersonaLive! Expressive Portrait Image Animation for Live Streaming（PersonaLive！面向直播场景的富有表现力的肖像图像动画） [04:10] 🎬 Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation（基于跟踪的结构生成：为视频生成提炼结构保持的运动） [04:41] 🎨 Exploring MLLM-Diffusion Information Transfer with MetaCanvas（探索MLLM-扩散信息传递与MetaCanvas） [05:18] 🔄 MeshSplatting: Differentiable Rendering with Opaque Meshes（MeshSplatting：基于不透明网格的可微分渲染） [06:02] 🤖 LEO-RobotAgent: A General-purpose Robotic Agent for Language-driven Embodied Operator（LEO-RobotAgent：一种用于语言驱动具身操作的通用机器人智能体） [06:39] ⚡ The N-Body Problem: Parallel Execution from Single-Person Egocentric Video（N体问题：从单人第一人称视频中实现并行执行） [07:11] 🧬 CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images（CheXmask-U：X射线图像中基于解剖标志点分割的不确定性量化） [07:52] 🏆 Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge（视觉-语言-动作模型的任务适应：2025 BEHAVIOR挑战赛冠军方案） [08:32] 🚀 Sharp Monocular View Synthesis in Less Than a Second（一秒钟内实现锐利的单目视图合成）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

9分钟

99+

4个月前

【周末特辑】12月第3周最火AI论文 | 潜轨迹制导视频运动；并行自蒸馏提速推理

HuggingFace 每日AI论文速递

本期的 5 篇论文如下： [00:30] TOP1(🔥117) | 🎬 Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance（Wan-Move：通过潜在轨迹引导实现运动可控的视频生成） [02:11] TOP2(🔥71) | ⚡ Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning（原生并行推理器：通过自蒸馏强化学习实现并行推理） [04:18] TOP3(🔥71) | 🚀 Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform（Visionary：基于WebGPU驱动的高斯溅射平台的世界模型载体） [06:48] TOP4(🔥65) | ⚡ TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows（TwinFlow：基于自对抗流实现大模型的一步生成） [08:44] TOP5(🔥62) | 🚀 T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground（T-pro 2.0：一个高效的俄语混合推理模型与实验平台）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

99+

4个月前

2025.12.12 | RL捏3D新纪录；AI奥赛摘银牌

HuggingFace 每日AI论文速递

本期的 15 篇论文如下： [00:25] 🤖 Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation（我们准备好将强化学习应用于文本到3D生成领域了吗？一项渐进式研究） [01:01] 🧠 Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving（用于奥赛级数学问题求解的长程推理智能体） [01:36] 🚀 T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground（T-pro 2.0：一个高效的俄语混合推理模型与实验平台） [02:18] 🔍 OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification（OPV：基于结果的流程验证器，用于高效的长链思维验证） [03:04] 🏆 Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning（通过复杂度提升强化学习实现奥林匹克级别的几何大语言模型智能体） [04:06] 🎬 MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos（MoCapAnything：基于单目视频的任意骨架统一三维运动捕捉） [04:46] 🔬 From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models（从宏观到微观：基于视觉语言模型的分子微观空间智能基准测试） [05:22] 🧠 Thinking with Images via Self-Calling Agent（通过自调用智能体进行图像思维推理） [06:08] 🧩 VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction（VQRAE：用于多模态理解、生成与重建的表征量化自编码器） [06:48] 🤖 Evaluating Gemini Robotics Policies in a Veo World Simulator（在Veo世界模拟器中评估Gemini机器人策略） [07:30] 🚀 Stronger Normalization-Free Transformers（更强大的无归一化Transformer） [08:05] 📊 The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality（FACTS 排行榜：大型语言模型事实准确性综合基准） [08:36] 🎬 Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task（工具增强的时空推理：简化视频问答任务） [09:14] 🌀 MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification（MoRel：基于锚点中继双向混合与分层致密化的长程无闪烁4D运动建模） [09:50] 🤖 Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale（孔子代码智能体：工业级开源AI软件工程师）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

99

4个月前

2025.12.11 | StereoWorld单目秒变立体大片；BiCo跨域拼贴新概念

HuggingFace 每日AI论文速递

本期的 15 篇论文如下： [00:22] 🎥 StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation（StereoWorld：几何感知的单目到立体视频生成） [00:59] 🎨 Composing Concepts from Images and Videos via Concept-prompt Binding（通过概念-提示绑定从图像和视频中组合概念） [01:43] 🧠 BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain（BrainExplore：人脑中可解释视觉表征的大规模发现） [02:20] 🎨 OmniPSD: Layered PSD Generation with Diffusion Transformer（OmniPSD：基于扩散Transformer的分层PSD生成） [03:05] 🚀 InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models（InfiniteVL：融合线性与稀疏注意力以实现高效、无限输入的视觉语言模型） [03:47] ⚡ Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules（通过进度感知置信度调度实现扩散语言模型的快速解码） [04:31] 🚗 UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving（UniUGP：面向端到端自动驾驶的理解、生成与规划统一框架） [05:06] 🧠 EtCon: Edit-then-Consolidate for Reliable Knowledge Editing（EtCon：面向可靠知识编辑的先编辑后巩固范式） [05:56] 🤖 HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models（HiF-VLA：通过运动表征实现视觉-语言-动作模型的后见、洞见与先见） [06:46] 🔍 WonderZoom: Multi-Scale 3D World Generation（WonderZoom：多尺度三维世界生成） [07:23] 🤖 Learning Unmasking Policies for Diffusion Language Models（扩散语言模型的解掩码策略学习） [07:53] 🔭 IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting（IF-Bench：基于生成式视觉提示的红外图像多模态大语言模型基准测试与增强） [08:51] ⚡ Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS（超越统一模型：面向服务的低延迟、上下文感知实时TTS音素化方法） [09:31] 🎬 VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory（VideoSSM：基于混合状态空间记忆的自回归长视频生成） [10:16] 🛡 Pay Less Attention to Function Words for Free Robustness of Vision-Language Models（减少对功能词的关注以免费提升视觉语言模型的鲁棒性）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

76

4个月前

2025.12.10 | 潜在轨迹控运动；WebGPU实时溅射

HuggingFace 每日AI论文速递

本期的 15 篇论文如下： [00:24] 🎬 Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance（Wan-Move：通过潜在轨迹引导实现运动可控的视频生成） [00:55] 🚀 Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform（Visionary：基于WebGPU驱动的高斯溅射平台的世界模型载体） [01:32] 🎬 Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality（保持源视频真实感：面向电影级质量的高保真人脸交换） [02:13] 🎬 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory（OneStory：基于自适应记忆的连贯多镜头视频生成） [02:49] ⚡ ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models（ThreadWeaver：面向语言模型高效并行推理的自适应线程技术） [03:45] 🤖 MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment（MIND-V：基于强化学习物理对齐的长时程机器人操作分层视频生成） [04:47] 🚀 Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training（通过自动质量引导自训练提升无监督视频实例分割） [05:18] 🌲 TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models（TreeGRPO：基于树优势的GRPO用于扩散模型的在线强化学习后训练） [05:55] 🚀 From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs（从下一个词到下一个块：扩散语言模型的原则性适应路径） [06:30] 📊 EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce（EcomBench：面向电子商务领域基础智能体的全面评估） [07:02] 🧩 Modular Neural Image Signal Processing（模块化神经图像信号处理） [07:33] 🧭 Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation（慢思考，快行动：用于通用视觉语言导航的双系统基础模型） [08:16] 🤖 DeepCode: Open Agentic Coding（DeepCode：开放式智能体编码） [08:48] 🎯 TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels（TrackingWorld：以世界为中心的几乎所有像素单目三维跟踪） [09:30] 🎬 Efficiently Reconstructing Dynamic Scenes One D4RT at a Time（高效动态场景重建：一次一个D4RT）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

95

4个月前

2025.12.09 | 并行自蒸馏提速4.6倍；虚部RoPE++长文本双优化

HuggingFace 每日AI论文速递

本期的 15 篇论文如下： [00:20] ⚡ Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning（原生并行推理器：通过自蒸馏强化学习实现并行推理） [01:04] 🧠 Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs（超越实数：用于长上下文大语言模型的旋转位置编码虚部扩展） [01:54] 🎬 Unified Video Editing with Temporal Reasoner（基于时序推理的统一视频编辑） [02:33] 🔍 DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems（DoVer：面向LLM多智能体系统的干预驱动自动调试方法） [03:24] 🎮 Voxify3D: Pixel Art Meets Volumetric Rendering（Voxify3D：像素艺术与体素渲染的融合） [04:07] 🎬 Scaling Zero-Shot Reference-to-Video Generation（零样本参考到视频生成的规模化研究） [04:39] 🧬 Distribution Matching Variational AutoEncoder（分布匹配变分自编码器） [05:12] 🔭 Multi-view Pyramid Transformer: Look Coarser to See Broader（多视图金字塔Transformer：看粗以见广） [05:47] 🎬 EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing（EgoEdit：用于第一人称视频编辑的数据集、实时流式模型与基准测试） [06:25] 🖼 LongCat-Image Technical Report（LongCat-Image技术报告） [06:50] 🎬 UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation（UnityVideo：统一多模态多任务学习以增强世界感知的视频生成） [07:36] 🔗 Relational Visual Similarity（关系视觉相似性） [08:13] 🔬 On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models（论预训练、中期训练与强化学习在推理语言模型中的相互作用） [08:57] 🎥 ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation（ReCamDriving：无需LiDAR的相机控制新轨迹视频生成） [09:30] 🚀 Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning（超越词级监督：通过强化学习解锁基于解码的回归潜力）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

99+

5个月前

2025.12.08 | 自对抗一步生成；外挂评审迭代编辑

HuggingFace 每日AI论文速递

本期的 15 篇论文如下： [00:19] ⚡ TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows（TwinFlow：基于自对抗流实现大模型的一步生成） [00:49] 🤔 EditThinker: Unlocking Iterative Reasoning for Any Image Editor（EditThinker：为任意图像编辑器解锁迭代推理能力） [01:26] 🎨 PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling（PaCo-RL：通过成对奖励建模推进强化学习在一致性图像生成中的应用） [02:05] 📈 From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks（从模仿到判别：一种增强跨领域推理任务的通用课程优势机制） [02:55] ⚖ Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning（熵比率裁剪：一种用于稳定强化学习的软性全局约束） [03:38] 🎬 Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image（基于单张图像的联合三维几何重建与运动生成以实现四维合成） [04:15] 🧠 COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence（COOPER：空间智能中协同感知与推理的统一模型） [04:45] 🎨 RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards（RealGen：通过检测器引导的奖励实现逼真的文本到图像生成） [05:16] 🔍 ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning（ReVSeg：利用强化学习激励视频分割中的推理链） [05:49] 🎥 World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty（知晓自身不确定性的世界模型：具有校准不确定性的可控视频生成） [06:24] 🎮 SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling（SpaceControl：为3D生成模型引入测试时空间控制） [07:14] 🤖 Self-Improving VLM Judges Without Human Annotations（无需人工标注的自改进视觉语言模型评判器） [07:54] 🎬 SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations（SCAIL：通过三维一致姿态表征的上下文学习实现影视级角色动画） [08:30] 🤝 AI & Human Co-Improvement for Safer Co-Superintelligence（人工智能与人类协同进化以实现更安全的协同超级智能） [09:08] 🎬 ProPhy: Progressive Physical Alignment for Dynamic World Simulation（ProPhy：面向动态世界模拟的渐进式物理对齐框架）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

99+

5个月前

【周末特辑】12月第2周最火AI论文 | 代码智能全链路拆解；开源DeepSeek-V3.2登顶

HuggingFace 每日AI论文速递

本期的 5 篇论文如下： [00:32] TOP1(🔥239) | 🧠 From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence（从代码基础模型到智能体与应用：代码智能实用指南） [03:05] TOP2(🔥169) | 🚀 DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models（DeepSeek-V3.2：推动开放大型语言模型前沿） [04:58] TOP3(🔥148) | 🎬 LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling（LongVT：通过原生工具调用激励“长视频思考”） [07:00] TOP4(🔥147) | 🚀 Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer（Z-Image：基于单流扩散Transformer的高效图像生成基础模型） [08:58] TOP5(🔥137) | 🤖 Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length（实时虚拟化身：基于无限时长的流式实时音频驱动化身生成）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

99+

5个月前

2025.12.05 | DAComp立Agent新靶；流式化身无限实时

HuggingFace 每日AI论文速递

本期的 15 篇论文如下： [00:22] 📊 DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle（DAComp：跨全数据智能生命周期的数据智能体基准测试） [01:07] 🤖 Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length（实时虚拟化身：基于无限时长的流式实时音频驱动化身生成） [01:42] 🤖 Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction（Nex-N1：基于统一生态系统大规模环境构建训练的智能体模型） [02:24] 🤖 ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning（ARM-Thinker：通过智能体工具使用与视觉推理增强多模态生成奖励模型） [02:54] 🎬 Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation（奖励强制：通过奖励分布匹配蒸馏实现高效流式视频生成） [03:42] 🚀 Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion（语义先行：通过异步潜在扩散协调语义与纹理建模） [04:25] 🔧 PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing（PaperDebugger：一种基于插件的多智能体系统，用于编辑器内的学术写作、审阅与编辑） [04:56] 🌍 DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling（DynamicVerse：一个物理感知的多模态4D世界建模框架） [05:47] 🌀 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer（4DLangVGGT：基于Transformer的4D语言-视觉几何接地统一框架） [06:15] 🔍 UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers（UltraImage：重新思考图像扩散变换器中的分辨率外推） [07:02] 🎨 DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation（DraCo：以草稿作为思维链实现文本到图像预览与稀有概念生成） [07:51] ❄ Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting（Splannequin：基于双重检测溅射的单目人体模型挑战视频冻结） [08:34] 🤖 SIMA 2: A Generalist Embodied Agent for Virtual Worlds（SIMA 2：面向虚拟世界的通用具身智能体） [09:05] 🧮 Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing（基于模型与样本高效的AI辅助数学发现：球体填充问题研究） [09:47] 🧭 SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization（SeeNav-Agent：通过视觉提示与步级策略优化增强视觉语言导航）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

99+

5个月前

2025.12.04 | Qwen3-VL多模态超长上下文；PretrainZero强化主动预训练

HuggingFace 每日AI论文速递

本期的 15 篇论文如下： [00:24] 🧠 Qwen3-VL Technical Report（Qwen3-VL 技术报告） [00:57] 🧠 PretrainZero: Reinforcement Active Pretraining（PretrainZero：强化主动预训练） [01:36] 🎬 ViDiC: Video Difference Captioning（ViDiC：视频差异描述） [02:24] 🧠 OneThinker: All-in-one Reasoning Model for Image and Video（OneThinker：面向图像与视频的全能推理模型） [03:07] 🔄 Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation（重新思考文本到视觉生成中推理时扩展的提示设计） [03:59] ⚙ Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach（引导视觉-语言-动作模型作为反探索：一种测试时缩放方法） [04:46] 🤖 SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL（SpaceTools：通过双重交互式强化学习实现工具增强的空间推理） [05:22] 🔧 Thinking with Programming Vision: Towards a Unified View for Thinking with Images（以编程视觉思考：迈向图像思维的统一视角） [06:01] 🔄 Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment（逆向流动：通过反向表征对齐改进标准化流） [06:51] 🎮 RELIC: Interactive Video World Model with Long-Horizon Memory（RELIC：具备长时记忆的交互式视频世界模型） [07:34] 🍳 CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation（CookAnything：灵活且一致的多步骤食谱图像生成框架） [08:26] 🧠 SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment（SR-GRPO：将稳定秩作为大语言模型对齐的内在几何奖励） [09:01] 📊 AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs（AlignBench：基于合成图像-描述对评估细粒度图文对齐的基准） [09:38] 🧠 SkillFactory: Self-Distillation For Learning Cognitive Behaviors（SkillFactory：用于学习认知行为的自蒸馏方法） [10:20] 📱 UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs（UniQL：面向自适应边缘大语言模型的统一量化与低秩压缩）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

99+

5个月前

2025.12.17 | MMGR揭多模态推理短板；WorldPlay保几何一致实时建模

2025.12.16 | 代理记忆三维框架；VTP刷新生成纪录

2025.12.15 | 牙科小模型逆袭；扩散模型弃VAE

【周末特辑】12月第3周最火AI论文 | 潜轨迹制导视频运动；并行自蒸馏提速推理

2025.12.12 | RL捏3D新纪录；AI奥赛摘银牌

2025.12.11 | StereoWorld单目秒变立体大片；BiCo跨域拼贴新概念

2025.12.10 | 潜在轨迹控运动；WebGPU实时溅射

2025.12.09 | 并行自蒸馏提速4.6倍；虚部RoPE++长文本双优化

2025.12.08 | 自对抗一步生成；外挂评审迭代编辑

【周末特辑】12月第2周最火AI论文 | 代码智能全链路拆解；开源DeepSeek-V3.2登顶

2025.12.05 | DAComp立Agent新靶；流式化身无限实时

2025.12.04 | Qwen3-VL多模态超长上下文；PretrainZero强化主动预训练

加入我们的 Discord

扫描微信二维码

播放列表

HuggingFace 每日AI论文速递 - 节目列表

2025.12.17 | MMGR揭多模态推理短板；WorldPlay保几何一致实时建模

2025.12.16 | 代理记忆三维框架；VTP刷新生成纪录

2025.12.15 | 牙科小模型逆袭；扩散模型弃VAE

【周末特辑】12月第3周最火AI论文 | 潜轨迹制导视频运动；并行自蒸馏提速推理

2025.12.12 | RL捏3D新纪录；AI奥赛摘银牌

2025.12.11 | StereoWorld单目秒变立体大片；BiCo跨域拼贴新概念

2025.12.10 | 潜在轨迹控运动；WebGPU实时溅射

2025.12.09 | 并行自蒸馏提速4.6倍；虚部RoPE++长文本双优化

2025.12.08 | 自对抗一步生成；外挂评审迭代编辑

【周末特辑】12月第2周最火AI论文 | 代码智能全链路拆解；开源DeepSeek-V3.2登顶

2025.12.05 | DAComp立Agent新靶；流式化身无限实时

2025.12.04 | Qwen3-VL多模态超长上下文；PretrainZero强化主动预训练

加入我们的 Discord

扫描微信二维码

播放列表