大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月30日,我们将带您快速浏览9篇热门AI论文,涵盖多模态大型语言模型、视觉语言模型、视频扩散模型等多个前沿领域。现在,让我们立即进入精彩的论文世界。
[00:24] 🔍 Law of Vision Representation in MLLMs(多模态大型语言模型中的视觉表示定律)
[01:03] 🔍 CogVLM2: Visual Language Models for Image and Video Understanding(CogVLM2:用于图像和视频理解的视觉语言模型)
[01:40] 🌐 ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model(ReconX:利用视频扩散模型从稀疏视角重建任意场景)
[02:18] 🎵 WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling(WavTokenizer:一种高效的音频语言建模声学离散编解码器标记器)
[02:54] 🎥 SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners(SAM2Point:零样本和可提示方式下的3D视频分割)
[03:28] 🎨 CSGO: Content-Style Composition in Text-to-Image Generation(CSGO:文本到图像生成中的内容-风格组合)
[04:18] 🌐 3D Reconstruction with Spatial Memory(基于空间记忆的三维重建)
[04:54] 📈 Scaling Up Diffusion and Flow-based XGBoost Models(扩展扩散和基于流的XGBoost模型)
[05:29] 🎭 StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements(StyleRemix:通过蒸馏和扰动风格元素进行可解释的作者身份混淆)

【关注我们】
您还可以在以下平台找到我们,获得播客内容以外更多信息
小红书: AI速递

空空如也
暂无小宇宙热门评论