2024.08.26 每日AI论文 | 视觉-语言模型新进展,3D全景图创新框架。

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月26日,我们将带您快速浏览11篇热门AI论文,内容涵盖视觉-语言模型、3D场景生成、大型语言模型训练效率等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:25] 🔍 Building and better understanding vision-language models: insights and future directions(构建和更好地理解视觉-语言模型:见解与未来方向) [00:58] 🌐 LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation(LayerPano3D:分层3D全景图用于超沉浸式场景生成) [01:29] 📊 MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?(MME-RealWorld:多模态大型语言模型能否应对人类难以处理的高分辨率真实世界场景?) [02:08] ⚡ Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time(多层Transformer梯度在几乎线性时间内可近似计算) [02:45] 🎥 CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities(CustomCrafter:保留运动和概念组合能力的定制化视频生成) [03:27] 🎭 T3M: Text Guided 3D Human Motion Synthesis from Speech(T3M:基于语音的文本引导3D人体运动合成) [04:05] 🔍 Memory-Efficient LLM Training with Online Subspace Descent(通过在线子空间下降实现内存高效的大型语言模型训练) [04:45] 🌟 CODE: Confident Ordinary Differential Editing(自信常微分编辑) [05:24] 🔍 FLoD: Integrating Flexible Level of Detail into 3D Gaussian Splatting for Customizable Rendering(FLoD:将灵活的细节层次集成到3D高斯喷洒中以实现可定制渲染) [05:59] 🌐 A Web-Based Solution for Federated Learning with LLM-Based Automation(基于LLM自动化的联邦学习网络解决方案) [06:41] 🚀 HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments(HiRED:在资源受限环境下高效推理高分辨率视觉-语言模型的注意力引导标记丢弃) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

7分钟
95
7个月前

2024.08.23 每日AI论文 | 大型语言模型提升文本生成质量,智人模型优化视觉任务表现

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月23日,我们将带您快速浏览今日的19篇热门AI论文,涵盖了大型语言模型的可控文本生成、多模态理解和生成、高保真文本到视频合成等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:27] 📚 Controllable Text Generation for Large Language Models: A Survey(大型语言模型的可控文本生成:综述) [01:00] 🧠 Sapiens: Foundation for Human Vision Models(智人:人类视觉模型基础) [01:36] 🌐 Show-o: One Single Transformer to Unify Multimodal Understanding and Generation(Show-o:一个统一的Transformer模型,实现多模态理解和生成) [02:12] 🎥 xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations(xGen-VideoSyn-1:高保真文本到视频合成与压缩表示) [02:45] 🎥 DreamCinema: Cinematic Transfer with Free Camera and 3D Character(DreamCinema:自由相机与3D角色的电影转移) [03:19] 🖼 Scalable Autoregressive Image Generation with Mamba(基于Mamba架构的可扩展自回归图像生成) [03:54] 🤖 Hermes 3 Technical Report(Hermes 3技术报告) [04:33] 🚀 Jamba-1.5: Hybrid Transformer-Mamba Models at Scale(Jamba-1.5:大规模混合Transformer-Mamba模型) [05:10] 🎥 Real-Time Video Generation with Pyramid Attention Broadcast(基于金字塔注意力广播的实时视频生成) [05:50] 🌲 Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search(战略家:通过双层树搜索让LLMs学习战略技能) [06:30] 🌉 SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs(SEA:多模态大型语言模型中令牌级视觉-文本集成监督嵌入对齐) [07:14] 💼 Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications(开放式金融大型语言模型:面向金融应用的多模态大型语言模型) [07:49] 📷 SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models(SPARK:大规模视觉语言模型的多视觉传感器感知与推理基准) [08:26] 🇻 Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese(Vintern-1B:一个针对越南语的高效多模态大型语言模型) [08:56] 🎥 Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound(视频-福莱:基于时序事件条件的两阶段视频到声音生成) [09:24] 🎥 Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation(Anim-Director:一个利用大型多模态模型驱动的可控动画视频生成代理) [10:05] 🧐 ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM(ConflictBank:评估大型语言模型中知识冲突影响的基准) [10:46] 🌟 Subsurface Scattering for 3D Gaussian Splatting(3D高斯喷射中的次表面散射) [11:20] 🇷 The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design(聚焦俄罗斯的嵌入模型探索:ruMTEB基准与俄语嵌入模型设计) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

12分钟
99+
8个月前

2024.08.22 每日AI论文 | 视频模型TWLV-I性能卓越,LLM剪枝蒸馏技术提升效率

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月22日,我们将带您快速浏览今日的8篇热门AI论文,内容涵盖视频基础模型评估、LLM优化技术、以及多模态模型分析等前沿话题。现在,让我们立即进入精彩的论文世界。 [00:26] 📹 TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models(TWLV-I:视频基础模型的整体评估分析与洞察) [01:03] 📉 LLM Pruning and Distillation in Practice: The Minitron Approach(LLM剪枝与蒸馏实践:Minitron方法) [01:39] 📚 FocusLLM: Scaling LLM's Context by Parallel Decoding(FocusLLM:通过并行解码扩展LLM的上下文长度) [02:18] 🎥 TrackGo: A Flexible and Efficient Method for Controllable Video Generation(TrackGo:一种灵活且高效的可控视频生成方法) [02:59] 🖼 FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting(FRAP:基于自适应提示权重的忠实与真实文本到图像生成) [03:41] 📊 GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models(GRAB:一个针对大型多模态模型的高难度图表分析基准) [04:19] 🔄 Backward-Compatible Aligned Representations via an Orthogonal Transformation Layer(通过正交变换层实现向后兼容的对齐表示) [04:54] 📈 Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation(扩展FLORES+基准测试集以适应更多低资源语言环境:葡萄牙语-Emakhuwa机器翻译评估) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

5分钟
57
8个月前

2024.08.21 每日AI论文 | TableBench提升表格问答性能,代码预训练增强模型泛化能力。

大家好,欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年8月21日,我们将带您快速浏览15篇热门AI论文,涵盖表格问答、预训练影响、多模态模型、图像生成、自动化红队测试等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:26] 📊 TableBench: A Comprehensive and Complex Benchmark for Table Question Answering(TableBench:一个综合且复杂的表格问答基准) [00:59] 🔍 To Code, or Not To Code? Exploring Impact of Code in Pre-training(编码与否?探索预训练中代码的影响) [01:30] 🌉 Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(Transfusion:使用一个多模态模型预测下一个标记并扩散图像) [02:16] 🌐 MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning(MegaFusion:无需进一步调整即可扩展扩散模型以生成更高分辨率图像) [02:50] 🚀 Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique(Ferret:基于奖励评分技术的快速有效自动化红队测试) [03:35] 🔍 The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks(AI生成图像水印技术的脆弱性:对视觉转述攻击的鲁棒性评估) [04:14] 🦦 Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model(预测奖励与令牌并行:大型语言模型中非破坏性参数插入的高效推理干预) [04:56] 🎹 RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands(RP1M:一个用于双手灵巧机器人手钢琴演奏的大规模运动数据集) [05:33] 📊 ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining(ShapeSplat:一个大规模的高斯喷射数据集及其自监督预训练) [06:05] ⚡ MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding(MagicDec:通过投机性解码打破长上下文生成的延迟-吞吐量权衡) [06:39] 🎬 Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos(音频匹配剪辑:在电影和视频中寻找和创建匹配音频过渡) [07:22] 📈 MambaEVT: Event Stream based Visual Object Tracking using State Space Model(基于事件流使用状态空间模型的视觉目标跟踪) [08:07] 📚 PhysBERT: A Text Embedding Model for Physics Scientific Literature(PhysBERT:物理科学文献的文本嵌入模型) [08:41] 🚗 Recent Surge in Public Interest in Transportation: Sentiment Analysis of Baidu Apollo Go Using Weibo Data(近期公众对交通的兴趣激增:使用微博数据对百度Apollo Go进行情感分析) [09:15] 🔍 NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency(NeCo:通过补丁邻域一致性在19 GPU小时内改进DINOv2的空间表示) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

10分钟
56
8个月前

2024.08.20 每日AI论文 | 扩展视觉语言模型处理长视频,3D引导生成高质量网格

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月20日,我们将带您快速浏览11篇热门AI论文,涵盖长上下文视觉语言模型、3D引导重建、电路设计等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:26] 📺 LongVILA: Scaling Long-Context Visual Language Models for Long Videos(LongVILA:扩展长上下文视觉语言模型以处理长视频) [01:06] 🌐 MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model(MeshFormer:利用3D引导重建模型生成高质量网格) [01:44] 🚀 ShortCircuit: AlphaZero-Driven Circuit Design(短路:基于AlphaZero的电路设计) [02:29] 🌐 Segment Anything with Multiple Modalities(多模态场景分割) [03:09] ⚡ NeuFlow v2: High-Efficiency Optical Flow Estimation on Edge Devices(NeuFlow v2:边缘设备上的高效光流估计) [03:44] 🎥 Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data(分解梦想家:在有限和低质量数据下训练高质量视频生成器) [04:22] 🖱 TraDiffusion: Trajectory-Based Training-Free Image Generation(TraDiffusion:基于轨迹的无训练图像生成) [04:59] 🌟 Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering(基于扩散引导的逆向渲染实现真实感对象插入) [05:29] 🔍 SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views(SpaRP:从稀疏视角快速进行3D物体重建和姿态估计) [06:08] 📚 Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges(大型语言模型时代下的作者归属:问题、方法与挑战) [06:51] 🔒 Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models(Cybench:评估语言模型网络安全能力和风险的框架) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

8分钟
52
8个月前

2024.08.19 每日AI论文 | 多模态模型xGen-MM提升性能,JPEG-LM简化图像生成。

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月19日,我们将带您快速浏览7篇热门AI论文,涵盖多模态模型、图像生成、自动化设计等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:23] 🌐 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models(xGen-MM(BLIP-3):一个开放的大型多模态模型家族) [01:08] 🖼 JPEG-LM: LLMs as Image Generators with Canonical Codec Representations(JPEG-LM:使用标准编解码器表示的大型语言模型作为图像生成器) [01:37] 🤖 Automated Design of Agentic Systems(代理系统的自动化设计) [02:14] 🖼 TurboEdit: Instant text-based image editing(TurboEdit:即时基于文本的图像编辑) [02:56] ⚕ Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning(手术SAM 2:通过高效帧修剪实现手术视频中的实时分割) [03:29] 📚 Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering(在医学问答中通过人类启发式学习策略微调大型语言模型) [04:06] 📊 D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning(D5RL:多样化的数据集用于数据驱动的深度强化学习) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

5分钟
54
8个月前

【周末特辑】8月第3周最火AI论文 | AI模型泛化性能突增,长上下文LLMs生成能力扩展

各位听众朋友,大家好!欢迎收听《Hugging Face 每日AI论文速递》周末特辑,我们每周日为您带来一周内Hugging Face上最热门的AI研究论文。本期节目涵盖的日期是从2024年8月12日至2024年8月18日。 在这一期中,我们将为您介绍五篇精选论文,包括探索完全自动化科学发现的“AI科学家”,释放长上下文LLMs生成能力的“LongWriter”,以及最新的图像生成模型“Imagen 3”等。这些论文涵盖了从自动化科学发现到语言模型的新进展,再到图像生成的创新技术。 现在,让我们立即进入本期节目的精彩内容。 [00:47] TOP1(🔥84) | 🤖 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery(AI科学家:迈向完全自动化的开放式科学发现) [02:43] TOP2(🔥53) | 📚 LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs(LongWriter:从长上下文LLMs中释放10,000+字生成能力) [05:11] TOP3(🔥46) | 🌟 Imagen 3(Imagen 3) [07:26] TOP4(🔥45) | 🩺 Med42-v2: A Suite of Clinical LLMs(Med42-v2:一套临床大型语言模型) [09:05] TOP5(🔥42) | 🧠 Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers(互推理使小型语言模型成为更强的问题解决者) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

12分钟
57
8个月前

2024.08.16 每日AI论文 | 强化学习优化定理证明,LLM自我对齐新方法

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月16日,我们将带您快速浏览12篇热门AI论文,涵盖了从LLM自我对齐、数据集浓缩、知识图谱训练到视频生成等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:25] 🔍 DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search(DeepSeek-Prover-V1.5:利用证明助手反馈进行强化学习和蒙特卡洛树搜索) [01:05] 🔄 I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm(I-SHEEP:从零开始通过迭代自我增强范式实现LLM的自我对齐) [01:49] 🔍 Heavy Labels Out! Dataset Distillation with Label Space Lightening(重标签出!数据集浓缩与标签空间轻量化) [02:31] 🧠 Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability(在知识图谱上训练语言模型:幻觉现象及其可检测性的洞察) [03:05] 🧠 Towards flexible perception with visual memory(面向灵活感知与视觉记忆) [03:43] 🧠 FuseChat: Knowledge Fusion of Chat Models(FuseChat:聊天模型知识融合) [04:26] 🌉 MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing(MVInpainter:学习多视角一致性修复以桥接2D和3D编辑) [05:02] 🎥 FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance(FancyVideo:通过跨帧文本引导实现动态且一致的视频生成) [05:47] 🔊 Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization(通过对抗流匹配优化加速高保真波形生成) [06:31] 🤝 The ShareLM Collection and Plugin: Contributing Human-Model Chats for the Benefit of the Community(ShareLM集合与插件:为社区贡献人机对话数据) [07:15] 🔄 BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts(BAM!就这样:简单高效的参数升级循环方法用于混合专家模型) [07:56] 🤖 Can Large Language Models Understand Symbolic Graphics Programs?(大型语言模型能否理解符号图形程序?) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

9分钟
99
8个月前

2024.08.14 每日AI论文 | Imagen 3模型卓越,长文本生成突破,

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月14日,我们将带您快速浏览14篇热门AI论文,涵盖从长文本生成、科学研究加速到3D物体分类等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:24] 🌟 Imagen 3(Imagen 3) [01:05] 📚 LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs(LongWriter:从长上下文LLMs中释放10,000+字生成能力) [01:44] 🚀 OpenResearcher: Unleashing AI for Accelerated Scientific Research(OpenResearcher:利用人工智能加速科学研究) [02:18] 🌐 SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields(SlotLifter:槽引导特征提升用于学习对象中心辐射场) [02:58] 📈 Layerwise Recurrent Router for Mixture-of-Experts(层级循环路由器在专家混合模型中的应用) [03:36] 🔍 DC3DO: Diffusion Classifier for 3D Objects(DC3DO:用于3D物体的扩散分类器) [04:14] 🎬 MovieSum: An Abstractive Summarization Dataset for Movie Screenplays(MovieSum:电影剧本抽象摘要生成数据集) [04:47] 🤖 TacSL: A Library for Visuotactile Sensor Simulation and Learning(TacSL:视觉触觉传感器模拟与学习库) [05:29] 🤖 UniT: Unified Tactile Representation for Robot Learning(UniT:机器人学习的统一触觉表示) [06:06] 📊 Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models(安罗与查尔:分析大型语言模型预训练与微调的关系) [06:48] 😊 Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation(适应基于解耦的说话人匿名化系统以增强情感保留) [07:22] 🧬 Design Proteins Using Large Language Models: Enhancements and Comparative Analyses(使用大型语言模型设计蛋白质:增强与比较分析) [07:56] 🌐 FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data(伏羲天语:一个使用平衡数据训练的多语言大型语言模型) [08:30] 🎨 ZePo: Zero-Shot Portrait Stylization with Faster Sampling(ZePo:零样本肖像风格化与快速采样) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

9分钟
76
8个月前

2024.08.13 每日AI论文 | AI加速数学操作泛化,临床语言模型提升医疗性能。

大家好,欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年8月13日,我们将带您快速浏览今日的10篇热门AI论文,涵盖自动化科学发现、临床大型语言模型、图像和视频生成控制方法等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:27] 🤖 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery(AI科学家:迈向完全自动化的开放式科学发现) [01:06] 🩺 Med42-v2: A Suite of Clinical LLMs(Med42-v2:一套临床大型语言模型) [01:50] 🎥 ControlNeXt: Powerful and Efficient Control for Image and Video Generation(ControlNeXt: 图像和视频生成中的强大且高效的控制方法) [02:27] 🎥 CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer(CogVideoX:基于文本提示的视频扩散模型与专家变换器) [03:07] 🧠 Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers(互推理使小型语言模型成为更强的问题解决者) [03:53] 🤖 VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents(VisualAgentBench:迈向大型多模态模型作为视觉基础代理) [04:27] 🍎 FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework(FruitNeRF:基于神经辐射场的统一水果计数框架) [05:01] 👥 UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization(UniPortrait:一个用于身份保留的单人和多人图像个性化的统一框架) [05:42] 🤖 Body Transformer: Leveraging Robot Embodiment for Policy Learning(身体变换器:利用机器人身体结构进行策略学习) [06:15] 👤 HeadGAP: Few-shot 3D Head Avatar via Generalizable Gaussian Priors(HeadGAP:基于可泛化高斯先验的少量样本3D头部化身) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

7分钟
55
8个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧