节目列表: HuggingFace 每日AI论文速递 - EarsOnMe | 发现和收听来自小宇宙的热门播客

【月末特辑】7月最火AI论文 | Qwen2模型性能卓越，SpreadsheetLLM框架压缩效率高。

大家好，欢迎收听《Hugging Face 每日AI论文速递》月末特辑。每个月的最后一天，我们都会为您带来当月Hugging Face上最热门的AI论文汇总。今天，我们将一起回顾2024年7月的精彩研究成果。本期节目涵盖了从Qwen2技术报告到OpenDevin通用代理平台的多个前沿话题，包括大型语言模型的应用、视觉语言模型的挑战、以及多模态模型在数学推理中的表现等。 [00:42] TOP1(🔥150) | 📊 Qwen2 Technical Report（Qwen2技术报告） [02:59] TOP2(🔥116) | 📊 SpreadsheetLLM: Encoding Spreadsheets for Large Language Models（SpreadsheetLLM：编码电子表格以供大型语言模型使用） [05:21] TOP3(🔥92) | 🌐 InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output（InternLM-XComposer-2.5：一种支持长上下文输入和输出的多功能大型视觉语言模型） [07:36] TOP4(🔥85) | 🧠 Scaling Synthetic Data Creation with 1,000,000,000 Personas（利用10亿人格扩展合成数据生成） [09:54] TOP5(🔥82) | 📚 Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems（长上下文LLMs与RAG系统挑战：Summary of a Haystack任务） [12:05] TOP6(🔥80) | 👁 Vision language models are blind（视觉语言模型是盲目的） [13:40] TOP7(🔥74) | 🧠 We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?（We-Math：大型多模态模型是否达到人类水平的数学推理能力？） [15:57] TOP8(🔥70) | 📚 Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models（光谱：三元、量化和FP16语言模型的综合研究） [18:15] TOP9(🔥63) | 🌐 PaliGemma: A versatile 3B VLM for transfer（PaliGemma：一种多功能3B视觉语言模型用于迁移） [20:30] TOP10(🔥61) | 🤖 OpenDevin: An Open Platform for AI Software Developers as Generalist Agents（OpenDevin：一个面向AI软件开发者的通用代理开放平台）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

22分钟

46

9个月前

2024.08.01 每日AI论文 | Llama 3 模型性能媲美GPT-4，多语言编码推理出色

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月01日，我们将带您快速浏览11篇热门AI论文，涵盖了模型优化、语音翻译、视频生成等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:22] 🦙 The Llama 3 Herd of Models（Llama 3模型群） [01:00] 🎙 Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent（实现端到端同时语音翻译中的人类同等水平通过LLM代理） [01:54] 🎥 Tora: Trajectory-oriented Diffusion Transformer for Video Generation（Tora：轨迹导向的扩散变换器用于视频生成） [02:33] 🌟 MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts（MoMa：高效模态感知混合专家早期融合预训练） [03:09] 🛡 ShieldGemma: Generative AI Content Moderation Based on Gemma（ShieldGemma：基于Gemma的生成式AI内容审核） [03:48] 🔒 TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods（TAROT：基于政策优化方法的任务导向作者身份混淆） [04:30] 🌐 Open-Vocabulary Audio-Visual Semantic Segmentation（开放词汇音频-视觉语义分割） [05:13] 🚧 Data Contamination Report from the 2024 CONDA Shared Task（2024年CONDA共享任务数据污染报告） [05:51] 🎥 Fine-gained Zero-shot Video Sampling（细粒度零样本视频采样） [06:38] 🎭 Expressive Whole-Body 3D Gaussian Avatar（表达性全身3D高斯化身） [07:15] 🤖 Berkeley Humanoid: A Research Platform for Learning-based Control（伯克利人形机器人：基于学习的控制研究平台）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

58

9个月前

2024.07.31 每日AI论文 | 希腊语首开源大型模型，马来西亚语安全分类器创新。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月31日，我们将带您快速浏览今日的10篇热门AI论文，内容涵盖语言模型、数据处理、音乐理解等多个领域。现在，让我们立即进入精彩的论文世界。 [00:24] 🇬 Meltemi: The first open Large Language Model for Greek（Meltemi：首个开源的希腊语大型语言模型） [00:54] 🛡 Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework（适应马来西亚语言文本的安全工作分类器：增强LLM-Ops框架中的对齐） [01:35] 🔍 ThinK: Thinner Key Cache by Query-Driven Pruning（ThinK：通过查询驱动的修剪方法减少关键缓存） [02:11] 🧪 A Large Encoder-Decoder Family of Foundation Models For Chemical Language（化学语言基础模型的大型编码器-解码器家族） [02:44] 📄 Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings（Knesset-DictaBERT：针对议会过程的希伯来语语言模型） [03:22] 🎵 Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation（FUTGA：通过时间增强的生成性增强实现细粒度音乐理解） [03:54] 📚 Harvesting Textual and Structured Data from the HAL Publication Repository（从HAL出版物仓库中收集文本和结构化数据） [04:37] 🔍 JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources（JaColBERTv2.5：优化多向量检索器以在资源受限情况下创建最先进的日语检索器） [05:21] 🤖 Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning（扩散增强代理：一种提高探索效率和迁移学习的框架） [05:57] 🎨 Matting by Generation（通过生成方式进行图像抠图）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

7分钟

37

9个月前

2024.07.30 每日AI论文 | 东南亚语言模型优化，机器人学习视觉模型创新

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月30日，我们将带您快速浏览今日的19篇热门AI论文，涵盖了多语言大型语言模型、机器人学习、视频生成技术等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:25] 🌏 SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages（SeaLLMs 3：面向东南亚语言的开源基础和聊天多语言大型语言模型） [01:11] 🤖 Theia: Distilling Diverse Vision Foundation Models for Robot Learning（Theia：为机器人学习蒸馏多样化视觉基础模型） [01:51] 🎥 FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention（FreeLong：无需训练的长视频生成与频谱混合时序注意力） [02:32] 📜 SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain（SaulLM-54B & SaulLM-141B：法律领域域适应性扩展） [03:10] 🧠 Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning（通过直接偏好优化的自训练提升链式思维推理） [03:51] 🌐 Mixture of Nested Experts: Adaptive Processing of Visual Tokens（嵌套专家混合模型：视觉标记的自适应处理） [04:34] 🧠 MindSearch: Mimicking Human Minds Elicits Deep AI Searcher（思·索：模拟人类思维的深度AI搜索器） [05:13] 🔍 Diffusion Feedback Helps CLIP See Better（扩散反馈帮助CLIP看得更清楚） [05:53] 📊 MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains（MMAU：跨多个领域评估代理能力的综合基准） [06:28] 🧩 Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models（视觉谜题：大型视觉和语言模型在常识与世界知识挑战中的表现） [07:09] 🔄 Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle（Cycle3D：通过生成-重构循环过程实现高质量和一致性的图像到3D生成） [07:50] 🏙 3D Question Answering for City Scene Understanding（城市场景理解的3D问题回答） [08:31] 📊 VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks（VolDoGer：用于视觉语言任务中域泛化的LLM辅助数据集） [09:10] 🤖 Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge（元奖励语言模型：通过LLM作为元判断者实现自我改进） [09:53] 📚 ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation（ATHAR：一个高质量且多样化的古典阿拉伯语到英语翻译数据集） [10:40] 📷 Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture（弥合差距：从单目手机捕捉创建工作室级头像） [11:16] 🐕 WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds（WalkTheDog：跨形态运动对齐通过相位流形） [12:02] 🔍 TAPTRv2: Attention-based Position Update Improves Tracking Any Point（TAPTRv2：基于注意力的位置更新改进任意点跟踪） [12:52] 📊 Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models（使用大型语言模型对立陶宛在线评论进行情感分析）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

14分钟

69

9个月前

2024.07.29 每日AI论文 | AppWorld评估LLMs数字任务能力，ORG模型提升三维重建质量

大家好，欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年7月29日，我们将带您快速浏览六篇热门AI论文，涵盖交互编码代理基准测试、单张图像物体重建、视频字幕生成等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:25] 🌐 AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents（AppWorld：用于基准测试交互编码代理的应用程序和人为环境） [01:08] 🌍 Floating No More: Object-Ground Reconstruction from a Single Image（不再悬浮：单张图像中的物体-地面重建） [01:50] 📹 Wolf: Captioning Everything with a World Summarization Framework（Wolf：使用世界总结框架进行视频字幕生成） [02:31] 🌐 VSSD: Vision Mamba with Non-Casual State Space Duality（VSSD：视觉Mamba与非因果状态空间对偶性） [03:11] 🤖 SHIC: Shape-Image Correspondences with no Keypoint Supervision（SHIC：无需关键点监督的形状-图像对应关系） [03:50] 📝 Lessons from Learning to Spin "Pens"（从学习旋转“笔”中得到的启示）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

4分钟

66

9个月前

【周末特辑】7月第4周最火AI论文 | CoD提升医疗AI解释性,OpenDevin简化AI代理开发

大家好，欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日，我们都会为您带来一周内Hugging Face上最热门的AI论文。本期节目涵盖的日期是从2024年7月22日至2024年7月28日。在这一期中，我们将深入探讨五篇引人注目的论文，包括：基于诊断链的可解释医疗代理CoD，面向AI软件开发者的通用代理开放平台OpenDevin，大型语言模型的内部一致性与自我反馈调查，用于视觉理解的高效视觉-语言模型EVLM，以及在长上下文LLM推理中应用动态令牌剪枝技术的LazyLLM。 [00:50] TOP1(🔥48) | 🔗 CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis（CoD：一种基于诊断链的可解释医疗代理） [02:38] TOP2(🔥47) | 🤖 OpenDevin: An Open Platform for AI Software Developers as Generalist Agents（OpenDevin：一个面向AI软件开发者的通用代理开放平台） [04:23] TOP3(🔥39) | 🔍 Internal Consistency and Self-Feedback in Large Language Models: A Survey（大型语言模型的内部一致性与自我反馈：一项调查） [06:30] TOP4(🔥37) | 🧠 EVLM: An Efficient Vision-Language Model for Visual Understanding（EVLM：一种用于视觉理解的高效视觉-语言模型） [08:30] TOP5(🔥35) | ⚡ LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference（LazyLLM：动态令牌剪枝技术在长上下文LLM推理中的高效应用）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

45

9个月前

2024.07.26 每日AI论文 | AMEX提升移动AI性能，Diffree革新图像编辑技术

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月26日，我们将带您快速浏览今日的7篇热门AI论文，内容涵盖移动GUI代理、形状自由物体修补、安全对齐技术等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:25] 📱 AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents（AMEX：适用于移动GUI代理的Android多注释展示数据集） [01:01] 🖼 Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model（Diffree：基于文本指导的形状自由物体修补） [01:34] 🛠 Course-Correction: Safety Alignment Using Synthetic Preferences（课程校正：使用合成偏好进行安全对齐） [02:03] 🤖 LAMBDA: A Large Model Based Data Agent（LAMBDA：基于大型模型的数据代理） [02:38] 🤖 Very Large-Scale Multi-Agent Simulation in AgentScope（AgentScope中的超大规模多智能体模拟） [03:06] 📏 BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation（BetterDepth：即插即用扩散精炼器用于零样本单目深度估计） [03:35] 🔍 Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?（数据混合推断：BPE分词器揭示了其训练数据的哪些信息？）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

4分钟

41

9个月前

2024.07.25 每日AI论文 | AI软件开发平台、LLM训练技术、3D内容生成

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月25日，我们将带您快速浏览今日的11篇热门AI论文，内容涵盖AI软件开发平台、LLM训练技术、3D内容生成等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:29] 🤖 OpenDevin: An Open Platform for AI Software Developers as Generalist Agents（OpenDevin：一个面向AI软件开发者的通用代理开放平台） [01:05] 📈 $VILA^2$: VILA Augmented VILA（VILA 2：VILA增强的VILA） [01:37] 🔍 Scalify: scale propagation for efficient low-precision LLM training（Scalify：高效低精度LLM训练的尺度传播） [02:18] 📹 HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation（HumanVid：揭秘用于相机可控人类图像动画的训练数据） [02:49] 🔍 DDK: Distilling Domain Knowledge for Efficient Large Language Models（DDK：高效大型语言模型的领域知识蒸馏） [03:17] 🔍 MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning（MOMAland：多目标多智能体强化学习的一组基准） [03:51] 🌐 PERSONA: A Reproducible Testbed for Pluralistic Alignment（PERSONA：一个可复现的多重对齐测试平台） [04:26] 🎨 ViPer: Visual Personalization of Generative Models via Individual Preference Learning（ViPer：通过个体偏好学习实现生成模型的视觉个性化） [04:54] 🎥 SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency（SV4D：多帧多视角一致性的动态3D内容生成） [05:24] 🤖 Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning（学习无处不在操作：一个视觉强化学习的泛化框架） [05:56] 🚗 DreamCar: Leveraging Car-specific Prior for in-the-wild 3D Car Reconstruction（DreamCar：利用汽车特定先验进行野外3D汽车重建）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

6分钟

89

9个月前

2024.07.24 每日AI论文 | 医疗代理的可解释性、视频生成基准测试、虚拟试衣技术

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月24日，我们将带您快速浏览今日的11篇热门AI论文，内容涵盖医疗代理的可解释性、视频生成基准测试、虚拟试衣技术等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:27] 🔗 CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis（CoD：一种基于诊断链的可解释医疗代理） [00:54] 🔍 KAN or MLP: A Fairer Comparison（KAN或MLP：更公平的比较） [01:20] 🎥 T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation（T2V-CompBench: 组合文本到视频生成的全面基准测试） [02:00] 👕 OutfitAnyone: Ultra-high Quality Virtual Try-On for Any Clothing and Any Person（OutfitAnyone：为任何服装和任何人物提供超高保真度的虚拟试衣） [02:35] 🎬 MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence（MovieDreamer：连贯长视觉序列的分层生成） [03:08] 🤝 F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions（F-HOI：面向细粒度语义对齐的三维人体-物体交互） [03:44] 🌐 INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model（INF-LLaVA：双视角感知用于高分辨率多模态大语言模型） [04:24] 🎥 SIGMA: Sinkhorn-Guided Masked Video Modeling（SIGMA: Sinkhorn-Guided Masked Video Modeling） [05:00] 🏁 A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data（基于Assetto Corsa模拟器的自主赛车算法测试、验证和基准平台开发） [05:31] 🤖 Cross Anything: General Quadruped Robot Navigation through Complex Terrains（复杂地形中的通用四足机器人导航系统） [06:00] 🛡 PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing（PrimeGuard：无需调优的动态路由实现语言模型安全与帮助性）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

6分钟

73

9个月前

2024.07.23 每日AI论文 | 大型语言模型、多模态处理、3D世界生成

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月23日，我们将带您快速浏览今日的20篇热门AI论文，涵盖了大型语言模型、多模态处理、3D世界生成等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:24] 📚 Knowledge Mechanisms in Large Language Models: A Survey and Perspective（大型语言模型中的知识机制：综述与展望） [00:55] 🔍 NNsight and NDIF: Democratizing Access to Foundation Model Internals（NNsight与NDIF：普及基础模型内部访问） [01:41] 📊 POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation（POGEMA：合作多智能体导航的基准平台） [02:15] 🎥 SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models（SlowFast-LLaVA：一种无需额外训练的视频大型语言模型的强基线方法） [02:40] 📺 LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding（LongVideoBench：长上下文交错视频语言理解基准测试） [03:14] 🎮 VideoGameBunny: Towards vision assistants for video games（VideoGameBunny：面向视频游戏的视觉助手） [03:49] 🌐 BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes（BoostMVSNeRFs：提升基于MVS的NeRF在大规模场景中的通用视图合成质量） [04:29] 🌐 AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?（AssistantBench：网络代理能否解决现实且耗时的任务？） [05:04] 🌐 HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions（HoloDreamer：从文本描述生成全景3D世界的整体框架） [05:36] 📚 BOND: Aligning LLMs with Best-of-N Distillation（BOND：将LLMs与Best-of-N蒸馏对齐） [06:10] 📊 MIBench: Evaluating Multimodal Large Language Models over Multiple Images（MIBench：评估多模态大型语言模型在多图像场景下的表现） [06:41] 🎶 MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation（MusiConGen：基于Transformer的文本到音乐生成中的节奏和和弦控制） [07:19] 🔧 Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning（条件语言策略：可操纵多目标微调的通用框架） [07:56] 🎭 Temporal Residual Jacobians For Rig-free Motion Transfer（无绑定运动转移的时间残差雅可比） [08:28] 📉 Consent in Crisis: The Rapid Decline of the AI Data Commons（危机中的同意：AI数据共享的快速衰退） [08:53] 🎨 Artist: Aesthetically Controllable Text-Driven Stylization without Training（Artist：无需训练的文本驱动美学可控风格化） [09:26] 🎥 Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models（Cinemo：基于运动扩散模型的图像动画一致性与可控性） [09:56] 🎥 Local All-Pair Correspondence for Point Tracking（局部全对应对应点跟踪） [10:24] 🔥 ThermalNeRF: Thermal Radiance Fields（热辐射场：热辐射场） [10:55] 🤖 GET-Zero: Graph Embodiment Transformer for Zero-shot Embodiment Generalization（GET-Zero：零样本实体泛化的图实体变换器）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

99+

9个月前

2024.07.22 每日AI论文 | 视觉-语言模型、长上下文LLM推理、文本到3D生成

大家好，欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年7月22日，我们将带您快速浏览今日的15篇热门AI论文，涵盖视觉-语言模型、长上下文LLM推理、文本到3D生成等多个前沿领域。精彩内容，马上开始！ [00:25] 🧠 EVLM: An Efficient Vision-Language Model for Visual Understanding（EVLM：一种用于视觉理解的高效视觉-语言模型） [00:55] 📚 ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities（ChatQA 2：弥合开放访问LLMs与专有LLMs在长上下文与RAG能力上的差距） [01:32] ⚡ LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference（LazyLLM：动态令牌剪枝技术在长上下文LLM推理中的高效应用） [02:05] 🤖 The Vision of Autonomic Computing: Can LLMs Make It a Reality?（自主计算愿景：LLMs能否使其成为现实？） [02:35] 🔊 Stable Audio Open（稳定音频开放） [03:07] 📄 VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding（VisFocus：无需OCR的视觉编码器用于密集文档理解） [03:39] 📄 Visual Text Generation in the Wild（真实场景中的视觉文本生成） [04:10] 🚀 Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders（跳跃前进：通过JumpReLU稀疏自动编码器提高重建保真度） [04:44] 🔬 SciCode: A Research Coding Benchmark Curated by Scientists（SciCode：科学家策划的研究编码基准） [05:16] 🚀 Fast Matrix Multiplications for Lookup Table-Quantized LLMs（大型语言模型的查找表量化快速矩阵乘法） [05:51] 🌐 PlacidDreamer: Advancing Harmony in Text-to-3D Generation（PlacidDreamer：推进文本到3D生成的和谐） [06:28] 🔄 Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle（Phi-3安全后训练：通过“break-fix”循环对齐语言模型） [06:59] 🎵 Efficient Audio Captioning with Encoder-Level Knowledge Distillation（基于编码器级知识蒸馏的高效音频描述） [07:27] 📚 Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition（Qalam：一种用于阿拉伯光学字符和手写识别的多模态大型语言模型） [08:03] 🌐 SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization（SparseCraft：基于立体视觉引导的几何线性化少样本神经重建）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

9分钟

76

9个月前

【周末特辑】7月第3周最火AI论文 (2024.07.15~07.19)

大家好，欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日，我们都会为您带来一周内Hugging Face上最受欢迎的AI论文摘要。本周我们关注的日期是从2024年7月15日至7月19日。本期节目将带您了解五篇精选论文，涵盖了从Qwen2技术报告到大型语言模型在电子表格处理中的应用，再到三元、量化和FP16语言模型的综合研究，以及无限上下文LLMs中的人类似事件记忆机制，最后是针对LLM代理的红队测试方法。现在，让我们立即进入本期节目的详细内容。 [00:45] TOP1(🔥140) | 📊 Qwen2 Technical Report（Qwen2技术报告） [02:55] TOP2(🔥102) | 📊 SpreadsheetLLM: Encoding Spreadsheets for Large Language Models（SpreadsheetLLM：编码电子表格以供大型语言模型使用） [04:50] TOP3(🔥59) | 📚 Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models（光谱：三元、量化和FP16语言模型的综合研究） [06:36] TOP4(🔥48) | 🧠 Human-like Episodic Memory for Infinite Context LLMs（人类似的事件记忆机制在无限上下文LLMs中的应用） [08:22] TOP5(🔥42) | 🔍 AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases（AgentPoison：通过毒化记忆或知识库对LLM代理进行红队测试）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

76

10个月前