大家好,欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年7月29日,我们将带您快速浏览六篇热门AI论文,涵盖交互编码代理基准测试、单张图像物体重建、视频字幕生成等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:25] 🌐 AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents(AppWorld:用于基准测试交互编码代理的应用程序和人为环境) [01:08] 🌍 Floating No More: Object-Ground Reconstruction from a Single Image(不再悬浮:单张图像中的物体-地面重建) [01:50] 📹 Wolf: Captioning Everything with a World Summarization Framework(Wolf:使用世界总结框架进行视频字幕生成) [02:31] 🌐 VSSD: Vision Mamba with Non-Casual State Space Duality(VSSD:视觉Mamba与非因果状态空间对偶性) [03:11] 🤖 SHIC: Shape-Image Correspondences with no Keypoint Supervision(SHIC:无需关键点监督的形状-图像对应关系) [03:50] 📝 Lessons from Learning to Spin "Pens"(从学习旋转“笔”中得到的启示) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日,我们都会为您带来一周内Hugging Face上最热门的AI论文。本期节目涵盖的日期是从2024年7月22日至2024年7月28日。 在这一期中,我们将深入探讨五篇引人注目的论文,包括:基于诊断链的可解释医疗代理CoD,面向AI软件开发者的通用代理开放平台OpenDevin,大型语言模型的内部一致性与自我反馈调查,用于视觉理解的高效视觉-语言模型EVLM,以及在长上下文LLM推理中应用动态令牌剪枝技术的LazyLLM。 [00:50] TOP1(🔥48) | 🔗 CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis(CoD:一种基于诊断链的可解释医疗代理) [02:38] TOP2(🔥47) | 🤖 OpenDevin: An Open Platform for AI Software Developers as Generalist Agents(OpenDevin:一个面向AI软件开发者的通用代理开放平台) [04:23] TOP3(🔥39) | 🔍 Internal Consistency and Self-Feedback in Large Language Models: A Survey(大型语言模型的内部一致性与自我反馈:一项调查) [06:30] TOP4(🔥37) | 🧠 EVLM: An Efficient Vision-Language Model for Visual Understanding(EVLM:一种用于视觉理解的高效视觉-语言模型) [08:30] TOP5(🔥35) | ⚡ LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference(LazyLLM:动态令牌剪枝技术在长上下文LLM推理中的高效应用) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月26日,我们将带您快速浏览今日的7篇热门AI论文,内容涵盖移动GUI代理、形状自由物体修补、安全对齐技术等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:25] 📱 AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents(AMEX:适用于移动GUI代理的Android多注释展示数据集) [01:01] 🖼 Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model(Diffree:基于文本指导的形状自由物体修补) [01:34] 🛠 Course-Correction: Safety Alignment Using Synthetic Preferences(课程校正:使用合成偏好进行安全对齐) [02:03] 🤖 LAMBDA: A Large Model Based Data Agent(LAMBDA:基于大型模型的数据代理) [02:38] 🤖 Very Large-Scale Multi-Agent Simulation in AgentScope(AgentScope中的超大规模多智能体模拟) [03:06] 📏 BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation(BetterDepth:即插即用扩散精炼器用于零样本单目深度估计) [03:35] 🔍 Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?(数据混合推断:BPE分词器揭示了其训练数据的哪些信息?) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月25日,我们将带您快速浏览今日的11篇热门AI论文,内容涵盖AI软件开发平台、LLM训练技术、3D内容生成等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:29] 🤖 OpenDevin: An Open Platform for AI Software Developers as Generalist Agents(OpenDevin:一个面向AI软件开发者的通用代理开放平台) [01:05] 📈 $VILA^2$: VILA Augmented VILA(VILA 2:VILA增强的VILA) [01:37] 🔍 Scalify: scale propagation for efficient low-precision LLM training(Scalify:高效低精度LLM训练的尺度传播) [02:18] 📹 HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation(HumanVid:揭秘用于相机可控人类图像动画的训练数据) [02:49] 🔍 DDK: Distilling Domain Knowledge for Efficient Large Language Models(DDK:高效大型语言模型的领域知识蒸馏) [03:17] 🔍 MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning(MOMAland:多目标多智能体强化学习的一组基准) [03:51] 🌐 PERSONA: A Reproducible Testbed for Pluralistic Alignment(PERSONA:一个可复现的多重对齐测试平台) [04:26] 🎨 ViPer: Visual Personalization of Generative Models via Individual Preference Learning(ViPer:通过个体偏好学习实现生成模型的视觉个性化) [04:54] 🎥 SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency(SV4D:多帧多视角一致性的动态3D内容生成) [05:24] 🤖 Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning(学习无处不在操作:一个视觉强化学习的泛化框架) [05:56] 🚗 DreamCar: Leveraging Car-specific Prior for in-the-wild 3D Car Reconstruction(DreamCar:利用汽车特定先验进行野外3D汽车重建) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月24日,我们将带您快速浏览今日的11篇热门AI论文,内容涵盖医疗代理的可解释性、视频生成基准测试、虚拟试衣技术等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:27] 🔗 CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis(CoD:一种基于诊断链的可解释医疗代理) [00:54] 🔍 KAN or MLP: A Fairer Comparison(KAN或MLP:更公平的比较) [01:20] 🎥 T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation(T2V-CompBench: 组合文本到视频生成的全面基准测试) [02:00] 👕 OutfitAnyone: Ultra-high Quality Virtual Try-On for Any Clothing and Any Person(OutfitAnyone:为任何服装和任何人物提供超高保真度的虚拟试衣) [02:35] 🎬 MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence(MovieDreamer:连贯长视觉序列的分层生成) [03:08] 🤝 F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions(F-HOI:面向细粒度语义对齐的三维人体-物体交互) [03:44] 🌐 INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model(INF-LLaVA:双视角感知用于高分辨率多模态大语言模型) [04:24] 🎥 SIGMA: Sinkhorn-Guided Masked Video Modeling(SIGMA: Sinkhorn-Guided Masked Video Modeling) [05:00] 🏁 A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data(基于Assetto Corsa模拟器的自主赛车算法测试、验证和基准平台开发) [05:31] 🤖 Cross Anything: General Quadruped Robot Navigation through Complex Terrains(复杂地形中的通用四足机器人导航系统) [06:00] 🛡 PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing(PrimeGuard:无需调优的动态路由实现语言模型安全与帮助性) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月23日,我们将带您快速浏览今日的20篇热门AI论文,涵盖了大型语言模型、多模态处理、3D世界生成等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:24] 📚 Knowledge Mechanisms in Large Language Models: A Survey and Perspective(大型语言模型中的知识机制:综述与展望) [00:55] 🔍 NNsight and NDIF: Democratizing Access to Foundation Model Internals(NNsight与NDIF:普及基础模型内部访问) [01:41] 📊 POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation(POGEMA:合作多智能体导航的基准平台) [02:15] 🎥 SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models(SlowFast-LLaVA:一种无需额外训练的视频大型语言模型的强基线方法) [02:40] 📺 LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding(LongVideoBench:长上下文交错视频语言理解基准测试) [03:14] 🎮 VideoGameBunny: Towards vision assistants for video games(VideoGameBunny:面向视频游戏的视觉助手) [03:49] 🌐 BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes(BoostMVSNeRFs:提升基于MVS的NeRF在大规模场景中的通用视图合成质量) [04:29] 🌐 AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?(AssistantBench:网络代理能否解决现实且耗时的任务?) [05:04] 🌐 HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions(HoloDreamer:从文本描述生成全景3D世界的整体框架) [05:36] 📚 BOND: Aligning LLMs with Best-of-N Distillation(BOND:将LLMs与Best-of-N蒸馏对齐) [06:10] 📊 MIBench: Evaluating Multimodal Large Language Models over Multiple Images(MIBench:评估多模态大型语言模型在多图像场景下的表现) [06:41] 🎶 MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation(MusiConGen:基于Transformer的文本到音乐生成中的节奏和和弦控制) [07:19] 🔧 Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning(条件语言策略:可操纵多目标微调的通用框架) [07:56] 🎭 Temporal Residual Jacobians For Rig-free Motion Transfer(无绑定运动转移的时间残差雅可比) [08:28] 📉 Consent in Crisis: The Rapid Decline of the AI Data Commons(危机中的同意:AI数据共享的快速衰退) [08:53] 🎨 Artist: Aesthetically Controllable Text-Driven Stylization without Training(Artist:无需训练的文本驱动美学可控风格化) [09:26] 🎥 Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models(Cinemo:基于运动扩散模型的图像动画一致性与可控性) [09:56] 🎥 Local All-Pair Correspondence for Point Tracking(局部全对应对应点跟踪) [10:24] 🔥 ThermalNeRF: Thermal Radiance Fields(热辐射场:热辐射场) [10:55] 🤖 GET-Zero: Graph Embodiment Transformer for Zero-shot Embodiment Generalization(GET-Zero:零样本实体泛化的图实体变换器) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年7月22日,我们将带您快速浏览今日的15篇热门AI论文,涵盖视觉-语言模型、长上下文LLM推理、文本到3D生成等多个前沿领域。精彩内容,马上开始! [00:25] 🧠 EVLM: An Efficient Vision-Language Model for Visual Understanding(EVLM:一种用于视觉理解的高效视觉-语言模型) [00:55] 📚 ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities(ChatQA 2:弥合开放访问LLMs与专有LLMs在长上下文与RAG能力上的差距) [01:32] ⚡ LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference(LazyLLM:动态令牌剪枝技术在长上下文LLM推理中的高效应用) [02:05] 🤖 The Vision of Autonomic Computing: Can LLMs Make It a Reality?(自主计算愿景:LLMs能否使其成为现实?) [02:35] 🔊 Stable Audio Open(稳定音频开放) [03:07] 📄 VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding(VisFocus:无需OCR的视觉编码器用于密集文档理解) [03:39] 📄 Visual Text Generation in the Wild(真实场景中的视觉文本生成) [04:10] 🚀 Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders(跳跃前进:通过JumpReLU稀疏自动编码器提高重建保真度) [04:44] 🔬 SciCode: A Research Coding Benchmark Curated by Scientists(SciCode:科学家策划的研究编码基准) [05:16] 🚀 Fast Matrix Multiplications for Lookup Table-Quantized LLMs(大型语言模型的查找表量化快速矩阵乘法) [05:51] 🌐 PlacidDreamer: Advancing Harmony in Text-to-3D Generation(PlacidDreamer:推进文本到3D生成的和谐) [06:28] 🔄 Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle(Phi-3安全后训练:通过“break-fix”循环对齐语言模型) [06:59] 🎵 Efficient Audio Captioning with Encoder-Level Knowledge Distillation(基于编码器级知识蒸馏的高效音频描述) [07:27] 📚 Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition(Qalam:一种用于阿拉伯光学字符和手写识别的多模态大型语言模型) [08:03] 🌐 SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization(SparseCraft:基于立体视觉引导的几何线性化少样本神经重建) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日,我们都会为您带来一周内Hugging Face上最受欢迎的AI论文摘要。本周我们关注的日期是从2024年7月15日至7月19日。 本期节目将带您了解五篇精选论文,涵盖了从Qwen2技术报告到大型语言模型在电子表格处理中的应用,再到三元、量化和FP16语言模型的综合研究,以及无限上下文LLMs中的人类似事件记忆机制,最后是针对LLM代理的红队测试方法。 现在,让我们立即进入本期节目的详细内容。 [00:45] TOP1(🔥140) | 📊 Qwen2 Technical Report(Qwen2技术报告) [02:55] TOP2(🔥102) | 📊 SpreadsheetLLM: Encoding Spreadsheets for Large Language Models(SpreadsheetLLM:编码电子表格以供大型语言模型使用) [04:50] TOP3(🔥59) | 📚 Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models(光谱:三元、量化和FP16语言模型的综合研究) [06:36] TOP4(🔥48) | 🧠 Human-like Episodic Memory for Infinite Context LLMs(人类似的事件记忆机制在无限上下文LLMs中的应用) [08:22] TOP5(🔥42) | 🔍 AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases(AgentPoison:通过毒化记忆或知识库对LLM代理进行红队测试) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听《Hugging Face 每日AI论文速递》。今天是2024年7月19日,我们将带您快速浏览今日的14篇热门AI论文,内容涵盖大型语言模型的扩展规律、多模态模型可信度研究以及检索增强机器学习等前沿话题。现在,让我们立即进入精彩的论文世界吧! [00:28] 📚 Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies(词汇表大小对大型语言模型扩展规律的影响研究) [01:00] 📚 Scaling Retrieval-Based Language Models with a Trillion-Token Datastore(基于万亿标记数据存储库扩展检索型语言模型) [01:46] 🌆 Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion(街景生成:利用自回归视频扩散生成大规模一致性街景视图) [02:19] 📊 Understanding Reference Policies in Direct Preference Optimization(理解直接偏好优化中的参考策略) [02:50] 📊 Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study(多模态大型语言模型可信度综合研究基准) [03:23] 📏 Scaling Granite Code Models to 128K Context(扩展Granite代码模型至128K上下文) [03:56] 📹 Shape of Motion: 4D Reconstruction from a Single Video(运动形态:单视频4D重建) [04:26] 🔧 CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization(CodeV:通过多级摘要增强LLMs进行Verilog生成) [04:53] 📚 Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation(注意力溢出:长上下文缺失项推荐中的语言模型输入模糊) [05:23] 🧠 BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval(BRIGHT:一个现实且具有挑战性的密集推理检索基准) [05:54] 📊 PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks(PM-LLM-Benchmark:评估大型语言模型在过程挖掘任务中的表现) [06:35] 📊 Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation(正确的基准一致性测试:LLM基准评估指南) [07:12] 📚 Retrieval-Enhanced Machine Learning: Synthesis and Opportunities(检索增强机器学习:综合与机遇) [07:48] 📄 A Comparative Study on Automatic Coding of Medical Letters with Explainability(医疗信件自动编码的可解释性比较研究) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月18日,我们将带您快速浏览今日的13篇热门AI论文,内容涵盖语言模型的综合研究、多模态模型评估、以及视频处理技术等前沿领域。现在,让我们立即进入精彩的论文世界吧! [00:25] 📚 Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models(光谱:三元、量化和FP16语言模型的综合研究) [00:56] 🔍 AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases(AgentPoison:通过毒化记忆或知识库对LLM代理进行红队测试) [01:36] 📊 LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models(LMMs-Eval:大型多模态模型评估的现实检查) [02:12] 🌐 E5-V: Universal Embeddings with Multimodal Large Language Models(E5-V:多模态大语言模型的通用嵌入) [02:43] 🔍 Patch-Level Training for Large Language Models(大型语言模型的补丁级训练) [03:17] 🤖 Case2Code: Learning Inductive Reasoning with Synthetic Data(Case2Code:利用合成数据学习归纳推理) [03:53] 👗 IMAGDressing-v1: Customizable Virtual Dressing(IMAGDressing-v1: 可定制的虚拟装扮) [04:31] 🎥 VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control(VD3D:驯服大型视频扩散Transformer以实现3D摄像机控制) [05:08] 🐠 Goldfish: Vision-Language Understanding of Arbitrarily Long Videos(金鱼:理解任意长度视频的视觉语言) [05:48] 🎵 Audio Conditioning for Music Generation via Discrete Bottleneck Features(基于离散瓶颈特征的音频条件化音乐生成) [06:23] 📷 Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections(Splatfacto-W:一种用于不受约束照片集合的高斯光栅化Nerfstudio实现) [07:02] 🚫 The Art of Saying No: Contextual Noncompliance in Language Models(说不的艺术:语言模型中的情境性非遵守) [07:41] 🚀 GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression(GoldFinch:高性能RWKV/Transformer混合模型,具有线性预填充和极端KV-Cache压缩) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月17日,我们将带您快速浏览今日的18篇热门AI论文,涵盖了大型语言模型的推理能力、多模态模型的评估工具、以及3D模型动画化等前沿话题。现在,让我们立即进入精彩的论文世界吧! [00:26] 📚 NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?(NeedleBench:大型语言模型在100万个上下文窗口中进行检索和推理的能力如何?) [01:07] 🎥 Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes(Ref-AVS:音频-视觉场景中的参考与分割对象) [01:41] 🎤 Qwen2-Audio Technical Report(Qwen2-Audio技术报告) [02:14] 🤖 Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning(Sibyl:简单而有效的复杂现实推理代理框架) [02:50] 📈 Scaling Diffusion Transformers to 16 Billion Parameters(扩展扩散Transformer至160亿参数) [03:24] 🌐 DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation(DreamCatalyst:通过控制编辑能力和身份保持实现快速且高质量的3D编辑) [03:59] 📊 VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models(VLMEvalKit:评估大型多模态模型的开源工具包) [04:37] ⚡ Efficient Training with Denoised Neural Weights(使用去噪神经权重的有效训练) [05:16] 🎥 Animate3D: Animating Any 3D Model with Multi-view Video Diffusion(Animate3D:使用多视角视频扩散动画化任何3D模型) [05:50] 📊 From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients(从GaLore到WeLore:低秩权重如何非均匀地从低秩梯度中涌现) [06:29] 📚 YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus(YouTube-SL-25:一个大规模、开放领域多语种手语并行语料库) [07:05] 📊 Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors(Vibravox:使用身体传导音频传感器捕获的法语语音数据集) [07:44] 🔄 FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models(FIRE:多模态模型反馈集成与细化评估数据集) [08:27] 🌐 OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces(OmniBind:通过绑定空间实现大规模多模态表示) [09:06] 🔬 Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development(数据榨汁机沙盒:多模态数据-模型协同开发的综合套件) [09:36] 🔍 Click-Gaussian: Interactive Segmentation to Any 3D Gaussians(Click-Gaussian:交互式分割至任意3D高斯) [10:12] 🤖 Grasping Diverse Objects with Simulated Humanoids(模拟人类机器人抓取多样物体) [10:42] 🔍 Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models(不确定性是脆弱的:操纵大型语言模型中的不确定性) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年7月16日,我们将带您快速浏览今日的13篇热门AI论文。本期内容涵盖了从大型语言模型的隐私风险到视频处理技术的创新,以及多语言模型的测试等多个前沿领域。现在,让我们立即进入精彩的论文世界吧! [00:26] 📊 Qwen2 Technical Report(Qwen2技术报告) [01:10] 🔒 Learning to Refuse: Towards Mitigating Privacy Risks in LLMs(学会拒绝:减轻LLMs中的隐私风险) [01:50] 📊 The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism(好、坏与贪婪:评估LLMs时不应忽视非确定性) [02:34] 🔍 Q-Sparse: All Large Language Models can be Fully Sparsely-Activated(Q-Sparse:所有大型语言模型都可以完全稀疏激活) [03:09] 🤖 GRUtopia: Dream General Robots in a City at Scale(GRUtopia:大规模城市中梦想通用机器人的研究) [03:46] 🎥 Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity(具有增强同步性的掩码生成视频到音频转换器) [04:22] 🤖 Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion(Make-An-Agent:基于行为提示的扩散模型的通用策略网络生成器) [04:55] 🔄 SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning(SHERL:资源有限迁移学习中的高精度和高效内存合成) [05:34] 📹 Video Occupancy Models(视频占用模型) [06:11] 🎥 Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models(噪声校准:利用预训练视频扩散模型进行内容保持的视频增强) [06:51] 🌟 DataDream: Few-shot Guided Dataset Generation(DataDream:少样本引导的数据集生成) [07:29] 📚 MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models(MMM:多语言互增强效应混合数据集与开放领域信息提取大型语言模型测试) [08:09] 🔬 LAB-Bench: Measuring Capabilities of Language Models for Biology Research(LAB-Bench:评估语言模型在生物学研究中的能力) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
与播客爱好者一起交流
播放列表还是空的
去找些喜欢的节目添加进来吧