节目列表: HuggingFace 每日AI论文速递 - EarsOnMe | 发现和收听来自小宇宙的热门播客

2024.08.29 每日AI论文 | 数据处理提升模型性能，多模态混合编码器优化视觉任务

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月29日，我们将带您快速浏览13篇热门AI论文，涵盖大型语言模型、多模态设计、能效模式等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:23] 📚 BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline（BaichuanSEED：通过引入竞争性大型语言模型基线来分享广泛数据收集和去重化的潜力） [01:03] 🦅 Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders（Eagle：探索多模态大型语言模型中混合编码器的设计空间） [01:45] 🐬 Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models（海豚：将长上下文作为新的能效模式用于设备上的语言模型） [02:26] 🚀 Distribution Backtracking Builds A Faster Convergence Trajectory for One-step Diffusion Distillation（分布回溯构建一步扩散蒸馏的更快收敛轨迹） [03:07] 📚 Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models（利用开放知识提升大型语言模型任务专长） [03:49] 🔍 LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation（LLaVA-MoD：通过MoE知识蒸馏使LLaVA小型化） [04:30] 🔍 Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature（知识导航器：基于大型语言模型的科学文献探索搜索框架） [05:07] 🤖 In-Context Imitation Learning via Next-Token Prediction（通过下一标记预测进行情境模仿学习） [05:58] 📊 Efficient LLM Scheduling by Learning to Rank（通过学习排序实现高效的大型语言模型调度） [06:36] 🔍 Towards Realistic Example-based Modeling via 3D Gaussian Stitching（基于3D高斯拼接的现实示例建模方法研究） [07:16] 📚 ReMamba: Equip Mamba with Effective Long-Sequence Modeling（ReMamba：为Mamba模型配备有效的长序列建模能力） [07:51] 🔄 Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts（无辅助损失的混合专家模型负载均衡策略） [08:26] 🎭 TEDRA: Text-based Editing of Dynamic and Photoreal Actors（TEDRA：基于文本的动态和逼真演员编辑）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

9分钟

46

8个月前

2024.08.28 每日AI论文 | 扩散模型提升游戏模拟质量，边缘写作优化长序列处理。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月28日，我们将带您快速浏览11篇热门AI论文，涵盖实时游戏引擎、长上下文检索、混合模型加速等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:24] 🎮 Diffusion Models Are Real-Time Game Engines（扩散模型作为实时游戏引擎） [01:08] 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval（边缘写作：长上下文检索的更好推理模式） [01:52] 🐍 The Mamba in the Llama: Distilling and Accelerating Hybrid Models（The Mamba in the Llama: 蒸馏和加速混合模型） [02:25] 👾 GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars（GenCA：一种基于文本条件的生成模型，用于真实可驱动的编解码器虚拟形象） [03:10] 🎥 Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation（生成中间帧：将图像到视频模型适应于关键帧插值） [03:50] 🎨 Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation（构建场景：基于扩散的图像生成的交互式3D布局控制） [04:25] 📖 Platypus: A Generalized Specialist Model for Reading Text in Various Forms（鸭嘴兽：一种用于阅读各种形式文本的广义专家模型） [05:07] 📊 Text2SQL is Not Enough: Unifying AI and Databases with TAG（Text2SQL还不够：通过TAG统一AI与数据库） [05:48] 🧠 Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing（Project SHADOW：使用语言模型探针对Wikidata进行符号高阶关联演绎推理） [06:26] 🐦 Temporally-consistent 3D Reconstruction of Birds（海鸟的时间一致性三维重建） [07:00] 📊 DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classification（DSTI在LLMs4OL 2024任务A中：内在知识与外在知识在类型分类中的比较）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

7分钟

37

8个月前

2024.08.27 每日AI论文 | SwiftBrush v2提升图像模型性能，音乐基础模型综述

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月27日，我们将带您快速浏览13篇热门AI论文，内容涵盖模型优化、基准测试、视频生成技术等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:23] 🚀 SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher（SwiftBrush v2：使您的一步扩散模型优于其教师模型） [00:58] 🔧 SWE-bench-java: A GitHub Issue Resolving Benchmark for Java（SWE-bench-java：一个针对Java的GitHub问题解决基准） [01:43] 🏆 K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences（K-Sort Arena：基于K-wise人类偏好的生成模型高效可靠基准测试） [02:17] 🎵 Foundation Models for Music: A Survey（音乐基础模型综述） [02:56] 🔄 LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs（LlamaDuo：从服务大型语言模型到小型本地模型的无缝迁移LLMOps管道） [03:39] 🎥 Training-free Long Video Generation with Chain of Diffusion Model Experts（无需训练的长视频生成与链式扩散模型专家） [04:11] 🎮 Learning to Move Like Professional Counter-Strike Players（学习专业反恐精英玩家的移动行为） [04:46] 🌐 LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!（LLaVaOLMoBitnet1B：三元大型语言模型走向多模态！） [05:18] 📱 MobileQuant: Mobile-friendly Quantization for On-device Language Models（MobileQuant：适用于移动设备的语言模型量化方法） [05:53] 📈 Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler（Power Scheduler：一种与批量大小和令牌数量无关的学习率调度器） [06:25] 🎥 TVG: A Training-free Transition Video Generation Method with Diffusion Models（TVG：一种无需训练的过渡视频生成方法与扩散模型） [07:03] 🔍 Efficient Detection of Toxic Prompts in Large Language Models（大型语言模型中有毒提示的高效检测） [07:34] 👤 MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement（MagicMan：利用3D感知扩散模型和迭代细化技术生成人类高质量多视角图像）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

76

8个月前

2024.08.26 每日AI论文 | 视觉-语言模型新进展，3D全景图创新框架。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月26日，我们将带您快速浏览11篇热门AI论文，内容涵盖视觉-语言模型、3D场景生成、大型语言模型训练效率等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:25] 🔍 Building and better understanding vision-language models: insights and future directions（构建和更好地理解视觉-语言模型：见解与未来方向） [00:58] 🌐 LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation（LayerPano3D：分层3D全景图用于超沉浸式场景生成） [01:29] 📊 MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?（MME-RealWorld：多模态大型语言模型能否应对人类难以处理的高分辨率真实世界场景？） [02:08] ⚡ Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time（多层Transformer梯度在几乎线性时间内可近似计算） [02:45] 🎥 CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities（CustomCrafter：保留运动和概念组合能力的定制化视频生成） [03:27] 🎭 T3M: Text Guided 3D Human Motion Synthesis from Speech（T3M：基于语音的文本引导3D人体运动合成） [04:05] 🔍 Memory-Efficient LLM Training with Online Subspace Descent（通过在线子空间下降实现内存高效的大型语言模型训练） [04:45] 🌟 CODE: Confident Ordinary Differential Editing（自信常微分编辑） [05:24] 🔍 FLoD: Integrating Flexible Level of Detail into 3D Gaussian Splatting for Customizable Rendering（FLoD：将灵活的细节层次集成到3D高斯喷洒中以实现可定制渲染） [05:59] 🌐 A Web-Based Solution for Federated Learning with LLM-Based Automation（基于LLM自动化的联邦学习网络解决方案） [06:41] 🚀 HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments（HiRED：在资源受限环境下高效推理高分辨率视觉-语言模型的注意力引导标记丢弃）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

7分钟

95

8个月前

【周末特辑】8月第4周最火AI论文 | xGen-MM（BLIP-3）多模态模型框架, LongVILA长视频理解系统

大家好，欢迎收听“Hugging Face 每日AI论文速递”周末特辑。每周日，我们都会为您带来一周内Hugging Face上最热门的AI论文汇总。从2024年8月19日至8月25日，我们精选了五篇论文，涵盖了多模态模型、长视频处理、视频基础模型评估、人类视觉模型以及表格问答基准等多个前沿领域。现在，让我们立即进入本期精彩内容。 [00:31] TOP1(🔥89) | 🌐 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models（xGen-MM（BLIP-3）：一个开放的大型多模态模型家族） [02:46] TOP2(🔥49) | 📺 LongVILA: Scaling Long-Context Visual Language Models for Long Videos（LongVILA：扩展长上下文视觉语言模型以处理长视频） [04:43] TOP3(🔥49) | 📹 TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models（TWLV-I：视频基础模型的整体评估分析与洞察） [06:44] TOP4(🔥49) | 🧠 Sapiens: Foundation for Human Vision Models（智人：人类视觉模型基础） [09:06] TOP5(🔥44) | 📊 TableBench: A Comprehensive and Complex Benchmark for Table Question Answering（TableBench：一个综合且复杂的表格问答基准）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

89

8个月前

2024.08.23 每日AI论文 | 大型语言模型提升文本生成质量，智人模型优化视觉任务表现

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月23日，我们将带您快速浏览今日的19篇热门AI论文，涵盖了大型语言模型的可控文本生成、多模态理解和生成、高保真文本到视频合成等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:27] 📚 Controllable Text Generation for Large Language Models: A Survey（大型语言模型的可控文本生成：综述） [01:00] 🧠 Sapiens: Foundation for Human Vision Models（智人：人类视觉模型基础） [01:36] 🌐 Show-o: One Single Transformer to Unify Multimodal Understanding and Generation（Show-o：一个统一的Transformer模型，实现多模态理解和生成） [02:12] 🎥 xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations（xGen-VideoSyn-1：高保真文本到视频合成与压缩表示） [02:45] 🎥 DreamCinema: Cinematic Transfer with Free Camera and 3D Character（DreamCinema：自由相机与3D角色的电影转移） [03:19] 🖼 Scalable Autoregressive Image Generation with Mamba（基于Mamba架构的可扩展自回归图像生成） [03:54] 🤖 Hermes 3 Technical Report（Hermes 3技术报告） [04:33] 🚀 Jamba-1.5: Hybrid Transformer-Mamba Models at Scale（Jamba-1.5：大规模混合Transformer-Mamba模型） [05:10] 🎥 Real-Time Video Generation with Pyramid Attention Broadcast（基于金字塔注意力广播的实时视频生成） [05:50] 🌲 Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search（战略家：通过双层树搜索让LLMs学习战略技能） [06:30] 🌉 SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs（SEA：多模态大型语言模型中令牌级视觉-文本集成监督嵌入对齐） [07:14] 💼 Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications（开放式金融大型语言模型：面向金融应用的多模态大型语言模型） [07:49] 📷 SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models（SPARK：大规模视觉语言模型的多视觉传感器感知与推理基准） [08:26] 🇻 Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese（Vintern-1B：一个针对越南语的高效多模态大型语言模型） [08:56] 🎥 Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound（视频-福莱：基于时序事件条件的两阶段视频到声音生成） [09:24] 🎥 Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation（Anim-Director：一个利用大型多模态模型驱动的可控动画视频生成代理） [10:05] 🧐 ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM（ConflictBank：评估大型语言模型中知识冲突影响的基准） [10:46] 🌟 Subsurface Scattering for 3D Gaussian Splatting（3D高斯喷射中的次表面散射） [11:20] 🇷 The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design（聚焦俄罗斯的嵌入模型探索：ruMTEB基准与俄语嵌入模型设计）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

12分钟

99+

8个月前

2024.08.22 每日AI论文 | 视频模型TWLV-I性能卓越，LLM剪枝蒸馏技术提升效率

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月22日，我们将带您快速浏览今日的8篇热门AI论文，内容涵盖视频基础模型评估、LLM优化技术、以及多模态模型分析等前沿话题。现在，让我们立即进入精彩的论文世界。 [00:26] 📹 TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models（TWLV-I：视频基础模型的整体评估分析与洞察） [01:03] 📉 LLM Pruning and Distillation in Practice: The Minitron Approach（LLM剪枝与蒸馏实践：Minitron方法） [01:39] 📚 FocusLLM: Scaling LLM's Context by Parallel Decoding（FocusLLM：通过并行解码扩展LLM的上下文长度） [02:18] 🎥 TrackGo: A Flexible and Efficient Method for Controllable Video Generation（TrackGo：一种灵活且高效的可控视频生成方法） [02:59] 🖼 FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting（FRAP：基于自适应提示权重的忠实与真实文本到图像生成） [03:41] 📊 GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models（GRAB：一个针对大型多模态模型的高难度图表分析基准） [04:19] 🔄 Backward-Compatible Aligned Representations via an Orthogonal Transformation Layer（通过正交变换层实现向后兼容的对齐表示） [04:54] 📈 Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation（扩展FLORES+基准测试集以适应更多低资源语言环境：葡萄牙语-Emakhuwa机器翻译评估）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

5分钟

57

8个月前

2024.08.21 每日AI论文 | TableBench提升表格问答性能，代码预训练增强模型泛化能力。

大家好，欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年8月21日，我们将带您快速浏览15篇热门AI论文，涵盖表格问答、预训练影响、多模态模型、图像生成、自动化红队测试等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:26] 📊 TableBench: A Comprehensive and Complex Benchmark for Table Question Answering（TableBench：一个综合且复杂的表格问答基准） [00:59] 🔍 To Code, or Not To Code? Exploring Impact of Code in Pre-training（编码与否？探索预训练中代码的影响） [01:30] 🌉 Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model（Transfusion：使用一个多模态模型预测下一个标记并扩散图像） [02:16] 🌐 MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning（MegaFusion：无需进一步调整即可扩展扩散模型以生成更高分辨率图像） [02:50] 🚀 Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique（Ferret：基于奖励评分技术的快速有效自动化红队测试） [03:35] 🔍 The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks（AI生成图像水印技术的脆弱性：对视觉转述攻击的鲁棒性评估） [04:14] 🦦 Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model（预测奖励与令牌并行：大型语言模型中非破坏性参数插入的高效推理干预） [04:56] 🎹 RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands（RP1M：一个用于双手灵巧机器人手钢琴演奏的大规模运动数据集） [05:33] 📊 ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining（ShapeSplat：一个大规模的高斯喷射数据集及其自监督预训练） [06:05] ⚡ MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding（MagicDec：通过投机性解码打破长上下文生成的延迟-吞吐量权衡） [06:39] 🎬 Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos（音频匹配剪辑：在电影和视频中寻找和创建匹配音频过渡） [07:22] 📈 MambaEVT: Event Stream based Visual Object Tracking using State Space Model（基于事件流使用状态空间模型的视觉目标跟踪） [08:07] 📚 PhysBERT: A Text Embedding Model for Physics Scientific Literature（PhysBERT：物理科学文献的文本嵌入模型） [08:41] 🚗 Recent Surge in Public Interest in Transportation: Sentiment Analysis of Baidu Apollo Go Using Weibo Data（近期公众对交通的兴趣激增：使用微博数据对百度Apollo Go进行情感分析） [09:15] 🔍 NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency（NeCo：通过补丁邻域一致性在19 GPU小时内改进DINOv2的空间表示）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

56

8个月前

2024.08.20 每日AI论文 | 扩展视觉语言模型处理长视频，3D引导生成高质量网格

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月20日，我们将带您快速浏览11篇热门AI论文，涵盖长上下文视觉语言模型、3D引导重建、电路设计等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:26] 📺 LongVILA: Scaling Long-Context Visual Language Models for Long Videos（LongVILA：扩展长上下文视觉语言模型以处理长视频） [01:06] 🌐 MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model（MeshFormer：利用3D引导重建模型生成高质量网格） [01:44] 🚀 ShortCircuit: AlphaZero-Driven Circuit Design（短路：基于AlphaZero的电路设计） [02:29] 🌐 Segment Anything with Multiple Modalities（多模态场景分割） [03:09] ⚡ NeuFlow v2: High-Efficiency Optical Flow Estimation on Edge Devices（NeuFlow v2：边缘设备上的高效光流估计） [03:44] 🎥 Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data（分解梦想家：在有限和低质量数据下训练高质量视频生成器） [04:22] 🖱 TraDiffusion: Trajectory-Based Training-Free Image Generation（TraDiffusion：基于轨迹的无训练图像生成） [04:59] 🌟 Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering（基于扩散引导的逆向渲染实现真实感对象插入） [05:29] 🔍 SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views（SpaRP：从稀疏视角快速进行3D物体重建和姿态估计） [06:08] 📚 Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges（大型语言模型时代下的作者归属：问题、方法与挑战） [06:51] 🔒 Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models（Cybench：评估语言模型网络安全能力和风险的框架）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

52

9个月前

2024.08.19 每日AI论文 | 多模态模型xGen-MM提升性能，JPEG-LM简化图像生成。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月19日，我们将带您快速浏览7篇热门AI论文，涵盖多模态模型、图像生成、自动化设计等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:23] 🌐 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models（xGen-MM（BLIP-3）：一个开放的大型多模态模型家族） [01:08] 🖼 JPEG-LM: LLMs as Image Generators with Canonical Codec Representations（JPEG-LM：使用标准编解码器表示的大型语言模型作为图像生成器） [01:37] 🤖 Automated Design of Agentic Systems（代理系统的自动化设计） [02:14] 🖼 TurboEdit: Instant text-based image editing（TurboEdit：即时基于文本的图像编辑） [02:56] ⚕ Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning（手术SAM 2：通过高效帧修剪实现手术视频中的实时分割） [03:29] 📚 Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering（在医学问答中通过人类启发式学习策略微调大型语言模型） [04:06] 📊 D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning（D5RL：多样化的数据集用于数据驱动的深度强化学习）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

5分钟

54

9个月前

【周末特辑】8月第3周最火AI论文 | AI模型泛化性能突增,长上下文LLMs生成能力扩展

各位听众朋友，大家好！欢迎收听《Hugging Face 每日AI论文速递》周末特辑，我们每周日为您带来一周内Hugging Face上最热门的AI研究论文。本期节目涵盖的日期是从2024年8月12日至2024年8月18日。在这一期中，我们将为您介绍五篇精选论文，包括探索完全自动化科学发现的“AI科学家”，释放长上下文LLMs生成能力的“LongWriter”，以及最新的图像生成模型“Imagen 3”等。这些论文涵盖了从自动化科学发现到语言模型的新进展，再到图像生成的创新技术。现在，让我们立即进入本期节目的精彩内容。 [00:47] TOP1(🔥84) | 🤖 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery（AI科学家：迈向完全自动化的开放式科学发现） [02:43] TOP2(🔥53) | 📚 LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs（LongWriter：从长上下文LLMs中释放10,000+字生成能力） [05:11] TOP3(🔥46) | 🌟 Imagen 3（Imagen 3） [07:26] TOP4(🔥45) | 🩺 Med42-v2: A Suite of Clinical LLMs（Med42-v2：一套临床大型语言模型） [09:05] TOP5(🔥42) | 🧠 Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers（互推理使小型语言模型成为更强的问题解决者）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

12分钟

57

9个月前

2024.08.16 每日AI论文 | 强化学习优化定理证明，LLM自我对齐新方法

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月16日，我们将带您快速浏览12篇热门AI论文，涵盖了从LLM自我对齐、数据集浓缩、知识图谱训练到视频生成等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:25] 🔍 DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search（DeepSeek-Prover-V1.5：利用证明助手反馈进行强化学习和蒙特卡洛树搜索） [01:05] 🔄 I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm（I-SHEEP：从零开始通过迭代自我增强范式实现LLM的自我对齐） [01:49] 🔍 Heavy Labels Out! Dataset Distillation with Label Space Lightening（重标签出！数据集浓缩与标签空间轻量化） [02:31] 🧠 Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability（在知识图谱上训练语言模型：幻觉现象及其可检测性的洞察） [03:05] 🧠 Towards flexible perception with visual memory（面向灵活感知与视觉记忆） [03:43] 🧠 FuseChat: Knowledge Fusion of Chat Models（FuseChat：聊天模型知识融合） [04:26] 🌉 MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing（MVInpainter：学习多视角一致性修复以桥接2D和3D编辑） [05:02] 🎥 FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance（FancyVideo：通过跨帧文本引导实现动态且一致的视频生成） [05:47] 🔊 Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization（通过对抗流匹配优化加速高保真波形生成） [06:31] 🤝 The ShareLM Collection and Plugin: Contributing Human-Model Chats for the Benefit of the Community（ShareLM集合与插件：为社区贡献人机对话数据） [07:15] 🔄 BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts（BAM！就这样：简单高效的参数升级循环方法用于混合专家模型） [07:56] 🤖 Can Large Language Models Understand Symbolic Graphics Programs?（大型语言模型能否理解符号图形程序？）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

9分钟

99

9个月前