大家好,欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年8月12日,我们将带您快速浏览今日的10篇热门AI论文,涵盖全模态大型语言模型、多模态理解、视觉推理等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:24] 🌐 VITA: Towards Open-Source Interactive Omni Multimodal LLM(VITA:迈向开源交互式全模态大型语言模型) [00:58] 🦉 mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models(mPLUG-Owl3:多模态大型语言模型中长图像序列理解的研究) [01:42] 🔍 Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2(Gemma Scope:在Gemma 2上全面开放稀疏自编码器) [02:19] 🔍 UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling(UniBench:视觉推理需要重新思考视觉-语言模型超越规模) [03:00] 📊 ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities(ToolSandbox:一个用于评估LLM工具使用能力的状态依赖、对话交互的评估基准) [03:53] 🔄 MulliVC: Multi-lingual Voice Conversion With Cycle Consistency(MulliVC:多语言语音转换与循环一致性) [04:36] 🔄 BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion(BRAT:架构无关文本反转的额外正交令牌) [05:14] 🧠 Generating novel experimental hypotheses from language models: A case study on cross-dative generalization(从语言模型生成新的实验假设:跨间接泛化案例研究) [05:52] 🎙 MooER: LLM-based Speech Recognition and Translation Models from Moore Threads(基于LLM的语音识别与翻译模型MooER) [06:40] 📹 Kalman-Inspired Feature Propagation for Video Face Super-Resolution(基于Kalman滤波的特征传播在视频人脸超分辨率中的应用) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
各位听众朋友,大家好!欢迎收听《Hugging Face 每日AI论文速递》周末特辑,我们每周日为您带来一周内Hugging Face上最受欢迎的AI论文汇总。本期节目涵盖的日期为2024年8月5日至2024年8月11日。今天,我们将一起探讨五篇精选论文,内容涉及文本生成模型的交互式学习、通用医学AI的多模态评估、手机上的GPT-4V级别多模态大型语言模型、大型视觉语言模型的多图像理解能力,以及简易视觉任务转移。现在,让我们立即进入精彩的论文世界,一探究竟! [00:45] TOP1(🔥77) | 🔍 Transformer Explainer: Interactive Learning of Text-Generative Models(Transformer解释器:交互式学习文本生成模型) [03:26] TOP2(🔥67) | 📊 GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI(GMAI-MMBench:面向通用医学AI的综合多模态评估基准) [06:02] TOP3(🔥66) | 📱 MiniCPM-V: A GPT-4V Level MLLM on Your Phone(手机上的GPT-4V级别多模态大型语言模型) [08:00] TOP4(🔥49) | 📊 MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models(MMIU:评估大型视觉语言模型在多图像理解上的能力) [10:15] TOP5(🔥42) | 🌐 LLaVA-OneVision: Easy Visual Task Transfer(LLaVA-OneVision:简易视觉任务转移) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月09日,我们将带您快速浏览11篇热门AI论文,涵盖多模态评估、文本生成模型、3D游戏场景自动生成等多个前沿领域。现在,让我们立即进入今天的论文速递。 [00:25] 📊 GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI(GMAI-MMBench:面向通用医学AI的综合多模态评估基准) [01:07] 🔍 Transformer Explainer: Interactive Learning of Text-Generative Models(Transformer解释器:交互式学习文本生成模型) [01:45] 🎮 Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches(从用户随意草图自动生成交互式3D游戏场景) [02:28] 🔍 Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models(Img-Diff:用于多模态大型语言模型的对比数据合成) [03:13] 🔍 Task-oriented Sequential Grounding in 3D Scenes(面向任务的3D场景序列定位) [03:46] 🔍 LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection(LLM-DetectAIve:一种细粒度机器生成文本检测工具) [04:28] 🎥 Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics(傀儡大师:作为部分级动态运动先验的交互式视频生成模型的扩展) [05:06] 📚 Better Alignment with Instruction Back-and-Forth Translation(通过指令来回翻译实现更好的对齐) [05:36] 🌍 Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP(跨语言词汇转移与Trans-Tokenization:为低资源NLP调整LLMs) [06:17] 🔬 Advancing Molecular Machine (Learned) Representations with Stereoelectronics-Infused Molecular Graphs(利用立体电子效应提升分子机器学习表示的分子图) [07:06] 🔍 Learning to Predict Program Execution by Modeling Dynamic Dependency on Code Graphs(基于代码图的动态依赖关系建模以预测程序执行) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月8日,我们将带您快速浏览今日的11篇热门AI论文,涵盖多模态记忆增强、语言模型调优、机器人技术等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:24] 🤖 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks(Optimus-1:混合多模态记忆增强代理在长时限任务中的卓越表现) [01:03] 🤖 EXAONE 3.0 7.8B Instruction Tuned Language Model(EXAONE 3.0 7.8B指令调优语言模型) [01:40] 🏓 Achieving Human Level Competitive Robot Table Tennis(实现人类水平竞争的机器人乒乓球) [02:20] 🛡 WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models(WalledEval:大型语言模型的全面安全评估工具包) [03:12] 📚 Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling(Openstory++:大规模实例感知开放领域视觉叙事数据集与基准) [03:58] 🎨 Fast Sprite Decomposition from Animated Graphics(从动画图形中快速分解精灵) [04:33] 📷 RayGauss: Volumetric Gaussian-Based Ray Casting for Photorealistic Novel View Synthesis(RayGauss:基于体积高斯光线投射的照片级真实感新型视图合成) [05:12] 🎤 Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation(面对音乐:解决电影音频源分离中的歌唱声音分离问题) [05:53] 🌐 Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond(Speech-MASSIVE:一个用于SLU及更多的多语言语音数据集) [06:37] 🔗 CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases(CodexGraph:通过代码图数据库连接大型语言模型和代码仓库) [07:25] 🌐 Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields(用于静态和动态辐射场的紧凑型3D高斯喷洒) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月07日,我们将带您快速浏览12篇热门AI论文,涵盖视觉语言模型评估、图像处理、多模态数据集等多个前沿领域。现在,让我们立即进入今天的论文速递。 [00:24] 📊 MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models(MMIU:评估大型视觉语言模型在多图像理解上的能力) [01:03] 🌐 LLaVA-OneVision: Easy Visual Task Transfer(LLaVA-OneVision:简易视觉任务转移) [01:46] 🎨 An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion(一个物体值得64x64像素:通过图像扩散生成3D物体) [02:26] 🖼 IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts(IPAdapter-Instruct:使用指令提示解决基于图像条件控制的模糊性问题) [03:13] 🩺 MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine(MedTrinity-25M:一个用于医学的大规模多模态数据集,具有多粒度标注) [03:50] 🧠 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters(最优扩展大型语言模型测试时计算量比扩展模型参数更有效) [04:21] 🧠 CoverBench: A Challenging Benchmark for Complex Claim Verification(CoverBench:一个针对复杂声明验证的挑战性基准) [05:02] 🔍 Diffusion Models as Data Mining Tools(扩散模型作为数据挖掘工具) [05:42] 🎭 ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer(ReSyncer:基于风格的生成器用于统一音视频同步面部表演者) [06:31] 📊 StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation(StructEval:通过结构化评估深化和扩展大型语言模型评估) [07:11] ⚡ AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation(AVESFormer:实时音频-视觉分割的高效Transformer设计) [07:48] 🔗 Synthesizing Text-to-SQL Data from Weak and Strong LLMs(合成文本到SQL数据:利用弱和强大型语言模型) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月06日,我们将带您快速浏览14篇热门AI论文,涵盖多模态大型语言模型、文本到图像生成、数据驱动模拟等多个前沿领域。精彩内容即将展开,让我们一起探索AI的最新进展。 [00:28] 📱 MiniCPM-V: A GPT-4V Level MLLM on Your Phone(手机上的GPT-4V级别多模态大型语言模型) [01:17] 🌟 Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining(Lumina-mGPT:利用多模态生成预训练实现灵活逼真的文本到图像生成) [02:02] 🌐 MeshAnything V2: Artist-Created Mesh Generation With Adjacent Mesh Tokenization(MeshAnything V2:艺术家创作网格生成与相邻网格标记化) [02:41] 🌊 Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models(释放数据海啸的力量:关于语言模型指令调优中数据评估与选择的综合调查) [03:19] 🗣 Language Model Can Listen While Speaking(语言模型可以在说话的同时进行听取) [03:57] 📈 Self-Taught Evaluators(自我教学评估器) [04:33] 🎥 VidGen-1M: A Large-Scale Dataset for Text-to-video Generation(VidGen-1M:一个用于文本到视频生成的大规模数据集) [05:07] 🌟 ProCreate, Dont Reproduce! Propulsive Energy Diffusion for Creative Generation(创造而非复制!推进能量扩散以实现创造性生成) [05:49] 🧬 BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba(BioMamba:一种利用Mamba的预训练生物医学语言表示模型) [06:27] 🔧 RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation(RAG Foundry:增强LLMs以实现检索增强生成的框架) [07:07] 🔍 ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning(ExoViP:通过外骨骼模块逐步验证和探索组合视觉推理) [07:43] 📊 The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines(超参数对大型语言模型推理性能的影响:vLLM与HuggingFace Pipelines的评估) [08:19] 🚗 GPUDrive: Data-driven, multi-agent driving simulation at 1 million FPS(GPUDrive:每秒100万帧的数据驱动多智能体驾驶模拟) [08:56] 🔒 Operationalizing Contextual Integrity in Privacy-Conscious Assistants(在隐私意识助手中操作化情境完整性) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月5日,我们将带您快速浏览8篇热门AI论文,涵盖医学图像分割、模型预训练、实体链接与关系抽取等多个前沿领域。现在,让我们立即进入今天的论文速递。 [00:23] 🩺 Medical SAM 2: Segment medical images as video via Segment Anything Model 2(医学SAM 2:通过Segment Anything Model 2将医学图像分割为视频) [01:03] 🚀 POA: Pre-training Once for Models of All Sizes(POA:为所有尺寸的模型一次性预训练) [01:37] 📚 ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget(ReLiK:快速且准确的学术预算实体链接与关系抽取) [02:10] 🌐 TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling(TexGen:基于多视角采样和重采样的文本引导3D纹理生成) [02:45] 📚 In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation(通过相似性搜索选择上下文示例改善低资源机器翻译) [03:23] 📊 RelBench: A Benchmark for Deep Learning on Relational Databases(RelBench:关系数据库上深度学习的基准) [04:04] 🎲 Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models(利用棋盘游戏模型测量语言模型可解释性中字典学习的进展) [04:40] 🎵 MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models(MuChoMusic:评估多模态音频-语言模型在音乐理解方面的能力) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日,我们都会为您带来一周内Hugging Face上最受欢迎的AI论文汇总。本期节目涵盖的日期是从2024年7月29日至8月4日。 在这一期中,我们将深入探讨五篇引人注目的论文,包括最新的Llama 3模型群、首个开源的希腊语大型语言模型Meltemi、法律领域的SaulLM-54B与SaulLM-141B、图像与视频中的任意分割技术SAM 2,以及用于自动化抑郁症分类的三模态架构整合大型语言模型。 现在,让我们立即进入本期节目的精彩内容。 [00:47] TOP1(🔥84) | 🦙 The Llama 3 Herd of Models(Llama 3模型群) [03:15] TOP2(🔥65) | 🇬 Meltemi: The first open Large Language Model for Greek(Meltemi:首个开源的希腊语大型语言模型) [05:14] TOP3(🔥59) | 📜 SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain(SaulLM-54B & SaulLM-141B:法律领域域适应性扩展) [07:38] TOP4(🔥59) | 🎥 SAM 2: Segment Anything in Images and Videos(SAM 2:图像与视频中的任意分割) [09:42] TOP5(🔥55) | 🧠 Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification(将大型语言模型整合到三模态架构中用于自动化抑郁症分类) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月02日,我们将带您快速浏览16篇热门AI论文,涵盖图像与视频分割、多模态语言模型、3D网格重建等多个前沿领域。现在,让我们立即进入今天的论文速递。 [00:25] 🎥 SAM 2: Segment Anything in Images and Videos(SAM 2:图像与视频中的任意分割) [00:58] 🌐 Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model(多模态语言模型中粗略对应关系激发3D时空理解) [01:30] 🚀 Gemma 2: Improving Open Language Models at a Practical Size(Gemma 2:在实际应用规模下改进开放语言模型) [02:13] 🌐 SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement(SF3D:稳定快速的三维网格重建与UV展开及光照解耦) [02:55] 📊 OmniParser for Pure Vision Based GUI Agent(基于纯视觉的GUI代理的OmniParser) [03:30] 📚 Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning(利用对比微调改进小型语言模型的文本嵌入) [04:04] 🎥 Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion(重现一切:使用动作-文本反转的语义视频动作转移) [04:44] 📊 MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities(MM-Vet v2:评估大型多模态模型综合能力的一项挑战性基准) [05:25] 🖼 TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models(TurboEdit:基于文本的图像编辑使用极少步骤的扩散模型) [06:06] 📖 Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names(尾巴讲述故事:包含角色名称的章节范围漫画转录) [06:47] 🎭 UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model(UniTalker:通过统一模型扩展音频驱动的3D面部动画) [07:30] 🚀 Finch: Prompt-guided Key-Value Cache Compression(Finch:提示引导的键值缓存压缩) [08:08] 🧩 Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses(非言辞,而是实物:大型语言模型在解决意大利文字谜题中的弱点) [08:46] 📚 Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation(句子级语音摘要:任务、数据集与基于语言模型知识蒸馏的端到端建模) [09:28] 🌐 Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention(平滑能量指导:通过减少注意力能量曲率指导扩散模型) [10:14] 📚 Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey(视觉语言模型时代中的广义分布外检测及其超越:一项调查) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听《Hugging Face 每日AI论文速递》月末特辑。每个月的最后一天,我们都会为您带来当月Hugging Face上最热门的AI论文汇总。今天,我们将一起回顾2024年7月的精彩研究成果。 本期节目涵盖了从Qwen2技术报告到OpenDevin通用代理平台的多个前沿话题,包括大型语言模型的应用、视觉语言模型的挑战、以及多模态模型在数学推理中的表现等。 [00:42] TOP1(🔥150) | 📊 Qwen2 Technical Report(Qwen2技术报告) [02:59] TOP2(🔥116) | 📊 SpreadsheetLLM: Encoding Spreadsheets for Large Language Models(SpreadsheetLLM:编码电子表格以供大型语言模型使用) [05:21] TOP3(🔥92) | 🌐 InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output(InternLM-XComposer-2.5:一种支持长上下文输入和输出的多功能大型视觉语言模型) [07:36] TOP4(🔥85) | 🧠 Scaling Synthetic Data Creation with 1,000,000,000 Personas(利用10亿人格扩展合成数据生成) [09:54] TOP5(🔥82) | 📚 Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems(长上下文LLMs与RAG系统挑战:Summary of a Haystack任务) [12:05] TOP6(🔥80) | 👁 Vision language models are blind(视觉语言模型是盲目的) [13:40] TOP7(🔥74) | 🧠 We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?(We-Math:大型多模态模型是否达到人类水平的数学推理能力?) [15:57] TOP8(🔥70) | 📚 Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models(光谱:三元、量化和FP16语言模型的综合研究) [18:15] TOP9(🔥63) | 🌐 PaliGemma: A versatile 3B VLM for transfer(PaliGemma:一种多功能3B视觉语言模型用于迁移) [20:30] TOP10(🔥61) | 🤖 OpenDevin: An Open Platform for AI Software Developers as Generalist Agents(OpenDevin:一个面向AI软件开发者的通用代理开放平台) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月01日,我们将带您快速浏览11篇热门AI论文,涵盖了模型优化、语音翻译、视频生成等多个前沿领域。现在,让我们立即进入今天的论文速递。 [00:22] 🦙 The Llama 3 Herd of Models(Llama 3模型群) [01:00] 🎙 Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent(实现端到端同时语音翻译中的人类同等水平通过LLM代理) [01:54] 🎥 Tora: Trajectory-oriented Diffusion Transformer for Video Generation(Tora:轨迹导向的扩散变换器用于视频生成) [02:33] 🌟 MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts(MoMa:高效模态感知混合专家早期融合预训练) [03:09] 🛡 ShieldGemma: Generative AI Content Moderation Based on Gemma(ShieldGemma:基于Gemma的生成式AI内容审核) [03:48] 🔒 TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods(TAROT:基于政策优化方法的任务导向作者身份混淆) [04:30] 🌐 Open-Vocabulary Audio-Visual Semantic Segmentation(开放词汇音频-视觉语义分割) [05:13] 🚧 Data Contamination Report from the 2024 CONDA Shared Task(2024年CONDA共享任务数据污染报告) [05:51] 🎥 Fine-gained Zero-shot Video Sampling(细粒度零样本视频采样) [06:38] 🎭 Expressive Whole-Body 3D Gaussian Avatar(表达性全身3D高斯化身) [07:15] 🤖 Berkeley Humanoid: A Research Platform for Learning-based Control(伯克利人形机器人:基于学习的控制研究平台) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年7月31日,我们将带您快速浏览今日的10篇热门AI论文,内容涵盖语言模型、数据处理、音乐理解等多个领域。现在,让我们立即进入精彩的论文世界。 [00:24] 🇬 Meltemi: The first open Large Language Model for Greek(Meltemi:首个开源的希腊语大型语言模型) [00:54] 🛡 Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework(适应马来西亚语言文本的安全工作分类器:增强LLM-Ops框架中的对齐) [01:35] 🔍 ThinK: Thinner Key Cache by Query-Driven Pruning(ThinK:通过查询驱动的修剪方法减少关键缓存) [02:11] 🧪 A Large Encoder-Decoder Family of Foundation Models For Chemical Language(化学语言基础模型的大型编码器-解码器家族) [02:44] 📄 Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings(Knesset-DictaBERT:针对议会过程的希伯来语语言模型) [03:22] 🎵 Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation(FUTGA:通过时间增强的生成性增强实现细粒度音乐理解) [03:54] 📚 Harvesting Textual and Structured Data from the HAL Publication Repository(从HAL出版物仓库中收集文本和结构化数据) [04:37] 🔍 JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources(JaColBERTv2.5:优化多向量检索器以在资源受限情况下创建最先进的日语检索器) [05:21] 🤖 Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning(扩散增强代理:一种提高探索效率和迁移学习的框架) [05:57] 🎨 Matting by Generation(通过生成方式进行图像抠图) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递
与播客爱好者一起交流
播放列表还是空的
去找些喜欢的节目添加进来吧