HuggingFace 每日AI论文速递 - 2024.07.17 每日AI论文 | 大型语言模型的推理能力、多模态模型的评估工具、3D模型动画化 - EarsOnMe

HuggingFace 每日AI论文速递
2024.07.17 每日AI论文 | 大型语言模型的推理能力、多模态模型的评估工具、3D模型动画化

时长：

11分钟

播放：

发布：

1年前

主播...

拨号上网

简介...

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月17日，我们将带您快速浏览今日的18篇热门AI论文，涵盖了大型语言模型的推理能力、多模态模型的评估工具、以及3D模型动画化等前沿话题。现在，让我们立即进入精彩的论文世界吧！

[00:26] 📚 NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?（NeedleBench：大型语言模型在100万个上下文窗口中进行检索和推理的能力如何？）

[01:07] 🎥 Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes（Ref-AVS：音频-视觉场景中的参考与分割对象）

[01:41] 🎤 Qwen2-Audio Technical Report（Qwen2-Audio技术报告）

[02:14] 🤖 Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning（Sibyl：简单而有效的复杂现实推理代理框架）

[02:50] 📈 Scaling Diffusion Transformers to 16 Billion Parameters（扩展扩散Transformer至160亿参数）

[03:24] 🌐 DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation（DreamCatalyst：通过控制编辑能力和身份保持实现快速且高质量的3D编辑）

[03:59] 📊 VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models（VLMEvalKit：评估大型多模态模型的开源工具包）

[04:37] ⚡ Efficient Training with Denoised Neural Weights（使用去噪神经权重的有效训练）

[05:16] 🎥 Animate3D: Animating Any 3D Model with Multi-view Video Diffusion（Animate3D：使用多视角视频扩散动画化任何3D模型）

[05:50] 📊 From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients（从GaLore到WeLore：低秩权重如何非均匀地从低秩梯度中涌现）

[06:29] 📚 YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus（YouTube-SL-25：一个大规模、开放领域多语种手语并行语料库）

[07:05] 📊 Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors（Vibravox：使用身体传导音频传感器捕获的法语语音数据集）

[07:44] 🔄 FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models（FIRE：多模态模型反馈集成与细化评估数据集）

[08:27] 🌐 OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces（OmniBind：通过绑定空间实现大规模多模态表示）

[09:06] 🔬 Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development（数据榨汁机沙盒：多模态数据-模型协同开发的综合套件）

[09:36] 🔍 Click-Gaussian: Interactive Segmentation to Any 3D Gaussians（Click-Gaussian：交互式分割至任意3D高斯）

[10:12] 🤖 Grasping Diverse Objects with Simulated Humanoids（模拟人类机器人抓取多样物体）

[10:42] 🔍 Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models（不确定性是脆弱的：操纵大型语言模型中的不确定性）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

去听...

小宇宙

谁收藏了...

EarsOnMe

空空如也

加入我们的 Discord

扫描微信二维码

播放列表