HuggingFace 每日AI论文速递 - 2024.12.05 每日AI论文 | 提升文本到图像扩散模型，生成沉浸式360度视频。 - EarsOnMe

时长：

10分钟

播放：

发布：

9个月前

主播...

简介...

本期的 15 篇论文如下：

[00:24] 🚀 SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance（SNOOPI：超强一步扩散蒸馏与适当引导）

[01:06] 🎥 Imagine360: Immersive 360 Video Generation from Perspective Anchor（Imagine360：从透视锚点生成沉浸式360度视频）

[01:40] 🚗 Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion（扩散模型在高效3D LiDAR场景补全中的蒸馏方法）

[02:13] 🔄 PaliGemma 2: A Family of Versatile VLMs for Transfer（PaliGemma 2：多功能视觉语言模型的迁移研究）

[02:52] 🌊 TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation（TokenFlow：多模态理解和生成的统一图像分词器）

[03:31] 🌐 VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models（VARCO-VISION：拓展韩国视觉语言模型的前沿）

[04:05] 🌐 NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images（NVComposer：通过多张稀疏和未定位图像提升生成新视角合成）

[04:49] 🎥 Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding（视频-3D大语言模型：学习位置感知视频表示用于3D场景理解）

[05:34] 🔍 CleanDIFT: Diffusion Features without Noise（CleanDIFT：无噪声扩散特征）

[06:11] 🎨 MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation（MIDI：单张图像生成多实例3D场景的新方法）

[06:53] 🎥 One Shot, One Talk: Whole-body Talking Avatar from a Single Image（一图一语：从单张图像生成全身说话虚拟形象）

[07:33] 📹 Mimir: Improving Video Diffusion Models for Precise Text Understanding（米米尔：提升视频扩散模型在精确文本理解中的应用）

[08:07] 🎨 NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training（硝基融合：通过动态对抗训练实现高保真单步扩散）

[08:47] 🧩 Weighted-Reward Preference Optimization for Implicit Model Fusion（加权奖励偏好优化用于隐式模型融合）

[09:37] 🔍 Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning（Inst-IT：通过显式视觉提示指令调优提升多模态实例理解）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

去听...

小宇宙

谁收藏了...