节目列表: HuggingFace 每日AI论文速递 - EarsOnMe | 发现和收听来自小宇宙的热门播客

2024.08.12 每日AI论文 | VITA模型多模态交互领先，mPLUG-Owl3长图像序列理解卓越

大家好，欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年8月12日，我们将带您快速浏览今日的10篇热门AI论文，涵盖全模态大型语言模型、多模态理解、视觉推理等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:24] 🌐 VITA: Towards Open-Source Interactive Omni Multimodal LLM（VITA：迈向开源交互式全模态大型语言模型） [00:58] 🦉 mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models（mPLUG-Owl3：多模态大型语言模型中长图像序列理解的研究） [01:42] 🔍 Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2（Gemma Scope：在Gemma 2上全面开放稀疏自编码器） [02:19] 🔍 UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling（UniBench：视觉推理需要重新思考视觉-语言模型超越规模） [03:00] 📊 ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities（ToolSandbox：一个用于评估LLM工具使用能力的状态依赖、对话交互的评估基准） [03:53] 🔄 MulliVC: Multi-lingual Voice Conversion With Cycle Consistency（MulliVC：多语言语音转换与循环一致性） [04:36] 🔄 BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion（BRAT：架构无关文本反转的额外正交令牌） [05:14] 🧠 Generating novel experimental hypotheses from language models: A case study on cross-dative generalization（从语言模型生成新的实验假设：跨间接泛化案例研究） [05:52] 🎙 MooER: LLM-based Speech Recognition and Translation Models from Moore Threads（基于LLM的语音识别与翻译模型MooER） [06:40] 📹 Kalman-Inspired Feature Propagation for Video Face Super-Resolution（基于Kalman滤波的特征传播在视频人脸超分辨率中的应用）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

50

8个月前

【周末特辑】8月第2周最火AI论文 | 交互式学习工具普及AI教育，多模态评估基准推动医学AI发展。

各位听众朋友，大家好！欢迎收听《Hugging Face 每日AI论文速递》周末特辑，我们每周日为您带来一周内Hugging Face上最受欢迎的AI论文汇总。本期节目涵盖的日期为2024年8月5日至2024年8月11日。今天，我们将一起探讨五篇精选论文，内容涉及文本生成模型的交互式学习、通用医学AI的多模态评估、手机上的GPT-4V级别多模态大型语言模型、大型视觉语言模型的多图像理解能力，以及简易视觉任务转移。现在，让我们立即进入精彩的论文世界，一探究竟！ [00:45] TOP1(🔥77) | 🔍 Transformer Explainer: Interactive Learning of Text-Generative Models（Transformer解释器：交互式学习文本生成模型） [03:26] TOP2(🔥67) | 📊 GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI（GMAI-MMBench：面向通用医学AI的综合多模态评估基准） [06:02] TOP3(🔥66) | 📱 MiniCPM-V: A GPT-4V Level MLLM on Your Phone（手机上的GPT-4V级别多模态大型语言模型） [08:00] TOP4(🔥49) | 📊 MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models（MMIU：评估大型视觉语言模型在多图像理解上的能力） [10:15] TOP5(🔥42) | 🌐 LLaVA-OneVision: Easy Visual Task Transfer（LLaVA-OneVision：简易视觉任务转移）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

12分钟

78

8个月前

2024.08.09 每日AI论文 | 医学AI评估基准揭示模型不足，Transformer解释器简化模型理解。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月09日，我们将带您快速浏览11篇热门AI论文，涵盖多模态评估、文本生成模型、3D游戏场景自动生成等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:25] 📊 GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI（GMAI-MMBench：面向通用医学AI的综合多模态评估基准） [01:07] 🔍 Transformer Explainer: Interactive Learning of Text-Generative Models（Transformer解释器：交互式学习文本生成模型） [01:45] 🎮 Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches（从用户随意草图自动生成交互式3D游戏场景） [02:28] 🔍 Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models（Img-Diff：用于多模态大型语言模型的对比数据合成） [03:13] 🔍 Task-oriented Sequential Grounding in 3D Scenes（面向任务的3D场景序列定位） [03:46] 🔍 LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection（LLM-DetectAIve：一种细粒度机器生成文本检测工具） [04:28] 🎥 Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics（傀儡大师：作为部分级动态运动先验的交互式视频生成模型的扩展） [05:06] 📚 Better Alignment with Instruction Back-and-Forth Translation（通过指令来回翻译实现更好的对齐） [05:36] 🌍 Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP（跨语言词汇转移与Trans-Tokenization：为低资源NLP调整LLMs） [06:17] 🔬 Advancing Molecular Machine (Learned) Representations with Stereoelectronics-Infused Molecular Graphs（利用立体电子效应提升分子机器学习表示的分子图） [07:06] 🔍 Learning to Predict Program Execution by Modeling Dynamic Dependency on Code Graphs（基于代码图的动态依赖关系建模以预测程序执行）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

53

8个月前

2024.08.08 每日AI论文 | 混合多模态记忆提升代理性能，大型语言模型在韩英处理中表现优异。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月8日，我们将带您快速浏览今日的11篇热门AI论文，涵盖多模态记忆增强、语言模型调优、机器人技术等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:24] 🤖 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks（Optimus-1：混合多模态记忆增强代理在长时限任务中的卓越表现） [01:03] 🤖 EXAONE 3.0 7.8B Instruction Tuned Language Model（EXAONE 3.0 7.8B指令调优语言模型） [01:40] 🏓 Achieving Human Level Competitive Robot Table Tennis（实现人类水平竞争的机器人乒乓球） [02:20] 🛡 WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models（WalledEval：大型语言模型的全面安全评估工具包） [03:12] 📚 Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling（Openstory++：大规模实例感知开放领域视觉叙事数据集与基准） [03:58] 🎨 Fast Sprite Decomposition from Animated Graphics（从动画图形中快速分解精灵） [04:33] 📷 RayGauss: Volumetric Gaussian-Based Ray Casting for Photorealistic Novel View Synthesis（RayGauss：基于体积高斯光线投射的照片级真实感新型视图合成） [05:12] 🎤 Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation（面对音乐：解决电影音频源分离中的歌唱声音分离问题） [05:53] 🌐 Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond（Speech-MASSIVE：一个用于SLU及更多的多语言语音数据集） [06:37] 🔗 CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases（CodexGraph：通过代码图数据库连接大型语言模型和代码仓库） [07:25] 🌐 Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields（用于静态和动态辐射场的紧凑型3D高斯喷洒）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

68

8个月前

2024.08.07 每日AI论文 | 多图像理解评估基准MMIU，视觉任务转移模型LLaVA-OneVision

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月07日，我们将带您快速浏览12篇热门AI论文，涵盖视觉语言模型评估、图像处理、多模态数据集等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:24] 📊 MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models（MMIU：评估大型视觉语言模型在多图像理解上的能力） [01:03] 🌐 LLaVA-OneVision: Easy Visual Task Transfer（LLaVA-OneVision：简易视觉任务转移） [01:46] 🎨 An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion（一个物体值得64x64像素：通过图像扩散生成3D物体） [02:26] 🖼 IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts（IPAdapter-Instruct：使用指令提示解决基于图像条件控制的模糊性问题） [03:13] 🩺 MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine（MedTrinity-25M：一个用于医学的大规模多模态数据集，具有多粒度标注） [03:50] 🧠 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters（最优扩展大型语言模型测试时计算量比扩展模型参数更有效） [04:21] 🧠 CoverBench: A Challenging Benchmark for Complex Claim Verification（CoverBench：一个针对复杂声明验证的挑战性基准） [05:02] 🔍 Diffusion Models as Data Mining Tools（扩散模型作为数据挖掘工具） [05:42] 🎭 ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer（ReSyncer：基于风格的生成器用于统一音视频同步面部表演者） [06:31] 📊 StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation（StructEval：通过结构化评估深化和扩展大型语言模型评估） [07:11] ⚡ AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation（AVESFormer：实时音频-视觉分割的高效Transformer设计） [07:48] 🔗 Synthesizing Text-to-SQL Data from Weak and Strong LLMs（合成文本到SQL数据：利用弱和强大型语言模型）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

55

8个月前

2024.08.06 每日AI论文 | MiniCPM-V模型高效部署，Lumina-mGPT生成逼真图像。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月06日，我们将带您快速浏览14篇热门AI论文，涵盖多模态大型语言模型、文本到图像生成、数据驱动模拟等多个前沿领域。精彩内容即将展开，让我们一起探索AI的最新进展。 [00:28] 📱 MiniCPM-V: A GPT-4V Level MLLM on Your Phone（手机上的GPT-4V级别多模态大型语言模型） [01:17] 🌟 Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining（Lumina-mGPT：利用多模态生成预训练实现灵活逼真的文本到图像生成） [02:02] 🌐 MeshAnything V2: Artist-Created Mesh Generation With Adjacent Mesh Tokenization（MeshAnything V2：艺术家创作网格生成与相邻网格标记化） [02:41] 🌊 Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models（释放数据海啸的力量：关于语言模型指令调优中数据评估与选择的综合调查） [03:19] 🗣 Language Model Can Listen While Speaking（语言模型可以在说话的同时进行听取） [03:57] 📈 Self-Taught Evaluators（自我教学评估器） [04:33] 🎥 VidGen-1M: A Large-Scale Dataset for Text-to-video Generation（VidGen-1M：一个用于文本到视频生成的大规模数据集） [05:07] 🌟 ProCreate, Dont Reproduce! Propulsive Energy Diffusion for Creative Generation（创造而非复制！推进能量扩散以实现创造性生成） [05:49] 🧬 BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba（BioMamba：一种利用Mamba的预训练生物医学语言表示模型） [06:27] 🔧 RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation（RAG Foundry：增强LLMs以实现检索增强生成的框架） [07:07] 🔍 ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning（ExoViP：通过外骨骼模块逐步验证和探索组合视觉推理） [07:43] 📊 The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines（超参数对大型语言模型推理性能的影响：vLLM与HuggingFace Pipelines的评估） [08:19] 🚗 GPUDrive: Data-driven, multi-agent driving simulation at 1 million FPS（GPUDrive：每秒100万帧的数据驱动多智能体驾驶模拟） [08:56] 🔒 Operationalizing Contextual Integrity in Privacy-Conscious Assistants（在隐私意识助手中操作化情境完整性）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

9分钟

40

8个月前

2024.08.05 每日AI论文 | MedSAM-2提升医学图像分割效率，POA框架实现模型尺寸灵活预训练。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月5日，我们将带您快速浏览8篇热门AI论文，涵盖医学图像分割、模型预训练、实体链接与关系抽取等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:23] 🩺 Medical SAM 2: Segment medical images as video via Segment Anything Model 2（医学SAM 2：通过Segment Anything Model 2将医学图像分割为视频） [01:03] 🚀 POA: Pre-training Once for Models of All Sizes（POA：为所有尺寸的模型一次性预训练） [01:37] 📚 ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget（ReLiK：快速且准确的学术预算实体链接与关系抽取） [02:10] 🌐 TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling（TexGen：基于多视角采样和重采样的文本引导3D纹理生成） [02:45] 📚 In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation（通过相似性搜索选择上下文示例改善低资源机器翻译） [03:23] 📊 RelBench: A Benchmark for Deep Learning on Relational Databases（RelBench：关系数据库上深度学习的基准） [04:04] 🎲 Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models（利用棋盘游戏模型测量语言模型可解释性中字典学习的进展） [04:40] 🎵 MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models（MuChoMusic：评估多模态音频-语言模型在音乐理解方面的能力）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

5分钟

51

8个月前

【周末特辑】8月第1周最火AI论文 | Llama 3模型媲美GPT-4，Meltemi首推希腊语开源模型。

大家好，欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日，我们都会为您带来一周内Hugging Face上最受欢迎的AI论文汇总。本期节目涵盖的日期是从2024年7月29日至8月4日。在这一期中，我们将深入探讨五篇引人注目的论文，包括最新的Llama 3模型群、首个开源的希腊语大型语言模型Meltemi、法律领域的SaulLM-54B与SaulLM-141B、图像与视频中的任意分割技术SAM 2，以及用于自动化抑郁症分类的三模态架构整合大型语言模型。现在，让我们立即进入本期节目的精彩内容。 [00:47] TOP1(🔥84) | 🦙 The Llama 3 Herd of Models（Llama 3模型群） [03:15] TOP2(🔥65) | 🇬 Meltemi: The first open Large Language Model for Greek（Meltemi：首个开源的希腊语大型语言模型） [05:14] TOP3(🔥59) | 📜 SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain（SaulLM-54B & SaulLM-141B：法律领域域适应性扩展） [07:38] TOP4(🔥59) | 🎥 SAM 2: Segment Anything in Images and Videos（SAM 2：图像与视频中的任意分割） [09:42] TOP5(🔥55) | 🧠 Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification（将大型语言模型整合到三模态架构中用于自动化抑郁症分类）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

12分钟

99+

8个月前

2024.08.02 每日AI论文 | SAM 2提升视频分割准确性，粗略对应关系增强3D时空理解。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月02日，我们将带您快速浏览16篇热门AI论文，涵盖图像与视频分割、多模态语言模型、3D网格重建等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:25] 🎥 SAM 2: Segment Anything in Images and Videos（SAM 2：图像与视频中的任意分割） [00:58] 🌐 Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model（多模态语言模型中粗略对应关系激发3D时空理解） [01:30] 🚀 Gemma 2: Improving Open Language Models at a Practical Size（Gemma 2：在实际应用规模下改进开放语言模型） [02:13] 🌐 SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement（SF3D：稳定快速的三维网格重建与UV展开及光照解耦） [02:55] 📊 OmniParser for Pure Vision Based GUI Agent（基于纯视觉的GUI代理的OmniParser） [03:30] 📚 Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning（利用对比微调改进小型语言模型的文本嵌入） [04:04] 🎥 Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion（重现一切：使用动作-文本反转的语义视频动作转移） [04:44] 📊 MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities（MM-Vet v2：评估大型多模态模型综合能力的一项挑战性基准） [05:25] 🖼 TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models（TurboEdit：基于文本的图像编辑使用极少步骤的扩散模型） [06:06] 📖 Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names（尾巴讲述故事：包含角色名称的章节范围漫画转录） [06:47] 🎭 UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model（UniTalker：通过统一模型扩展音频驱动的3D面部动画） [07:30] 🚀 Finch: Prompt-guided Key-Value Cache Compression（Finch：提示引导的键值缓存压缩） [08:08] 🧩 Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses（非言辞，而是实物：大型语言模型在解决意大利文字谜题中的弱点） [08:46] 📚 Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation（句子级语音摘要：任务、数据集与基于语言模型知识蒸馏的端到端建模） [09:28] 🌐 Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention（平滑能量指导：通过减少注意力能量曲率指导扩散模型） [10:14] 📚 Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey（视觉语言模型时代中的广义分布外检测及其超越：一项调查）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

55

8个月前

【月末特辑】7月最火AI论文 | Qwen2模型性能卓越，SpreadsheetLLM框架压缩效率高。

大家好，欢迎收听《Hugging Face 每日AI论文速递》月末特辑。每个月的最后一天，我们都会为您带来当月Hugging Face上最热门的AI论文汇总。今天，我们将一起回顾2024年7月的精彩研究成果。本期节目涵盖了从Qwen2技术报告到OpenDevin通用代理平台的多个前沿话题，包括大型语言模型的应用、视觉语言模型的挑战、以及多模态模型在数学推理中的表现等。 [00:42] TOP1(🔥150) | 📊 Qwen2 Technical Report（Qwen2技术报告） [02:59] TOP2(🔥116) | 📊 SpreadsheetLLM: Encoding Spreadsheets for Large Language Models（SpreadsheetLLM：编码电子表格以供大型语言模型使用） [05:21] TOP3(🔥92) | 🌐 InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output（InternLM-XComposer-2.5：一种支持长上下文输入和输出的多功能大型视觉语言模型） [07:36] TOP4(🔥85) | 🧠 Scaling Synthetic Data Creation with 1,000,000,000 Personas（利用10亿人格扩展合成数据生成） [09:54] TOP5(🔥82) | 📚 Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems（长上下文LLMs与RAG系统挑战：Summary of a Haystack任务） [12:05] TOP6(🔥80) | 👁 Vision language models are blind（视觉语言模型是盲目的） [13:40] TOP7(🔥74) | 🧠 We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?（We-Math：大型多模态模型是否达到人类水平的数学推理能力？） [15:57] TOP8(🔥70) | 📚 Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models（光谱：三元、量化和FP16语言模型的综合研究） [18:15] TOP9(🔥63) | 🌐 PaliGemma: A versatile 3B VLM for transfer（PaliGemma：一种多功能3B视觉语言模型用于迁移） [20:30] TOP10(🔥61) | 🤖 OpenDevin: An Open Platform for AI Software Developers as Generalist Agents（OpenDevin：一个面向AI软件开发者的通用代理开放平台）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

22分钟

46

8个月前

2024.08.01 每日AI论文 | Llama 3 模型性能媲美GPT-4，多语言编码推理出色

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月01日，我们将带您快速浏览11篇热门AI论文，涵盖了模型优化、语音翻译、视频生成等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:22] 🦙 The Llama 3 Herd of Models（Llama 3模型群） [01:00] 🎙 Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent（实现端到端同时语音翻译中的人类同等水平通过LLM代理） [01:54] 🎥 Tora: Trajectory-oriented Diffusion Transformer for Video Generation（Tora：轨迹导向的扩散变换器用于视频生成） [02:33] 🌟 MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts（MoMa：高效模态感知混合专家早期融合预训练） [03:09] 🛡 ShieldGemma: Generative AI Content Moderation Based on Gemma（ShieldGemma：基于Gemma的生成式AI内容审核） [03:48] 🔒 TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods（TAROT：基于政策优化方法的任务导向作者身份混淆） [04:30] 🌐 Open-Vocabulary Audio-Visual Semantic Segmentation（开放词汇音频-视觉语义分割） [05:13] 🚧 Data Contamination Report from the 2024 CONDA Shared Task（2024年CONDA共享任务数据污染报告） [05:51] 🎥 Fine-gained Zero-shot Video Sampling（细粒度零样本视频采样） [06:38] 🎭 Expressive Whole-Body 3D Gaussian Avatar（表达性全身3D高斯化身） [07:15] 🤖 Berkeley Humanoid: A Research Platform for Learning-based Control（伯克利人形机器人：基于学习的控制研究平台）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

58

8个月前

2024.07.31 每日AI论文 | 希腊语首开源大型模型，马来西亚语安全分类器创新。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月31日，我们将带您快速浏览今日的10篇热门AI论文，内容涵盖语言模型、数据处理、音乐理解等多个领域。现在，让我们立即进入精彩的论文世界。 [00:24] 🇬 Meltemi: The first open Large Language Model for Greek（Meltemi：首个开源的希腊语大型语言模型） [00:54] 🛡 Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework（适应马来西亚语言文本的安全工作分类器：增强LLM-Ops框架中的对齐） [01:35] 🔍 ThinK: Thinner Key Cache by Query-Driven Pruning（ThinK：通过查询驱动的修剪方法减少关键缓存） [02:11] 🧪 A Large Encoder-Decoder Family of Foundation Models For Chemical Language（化学语言基础模型的大型编码器-解码器家族） [02:44] 📄 Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings（Knesset-DictaBERT：针对议会过程的希伯来语语言模型） [03:22] 🎵 Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation（FUTGA：通过时间增强的生成性增强实现细粒度音乐理解） [03:54] 📚 Harvesting Textual and Structured Data from the HAL Publication Repository（从HAL出版物仓库中收集文本和结构化数据） [04:37] 🔍 JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources（JaColBERTv2.5：优化多向量检索器以在资源受限情况下创建最先进的日语检索器） [05:21] 🤖 Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning（扩散增强代理：一种提高探索效率和迁移学习的框架） [05:57] 🎨 Matting by Generation（通过生成方式进行图像抠图）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

7分钟

37

8个月前