HuggingFace 每日AI论文速递 - 2024.12.02 每日AI论文 | HiAR-ICL提升复杂任务表现，多模态模型领域适应增强。 - EarsOnMe

HuggingFace 每日AI论文速递
2024.12.02 每日AI论文 | HiAR-ICL提升复杂任务表现，多模态模型领域适应增强。

时长：

10分钟

播放：

发布：

9个月前

主播...

拨号上网

简介...

本期的 14 篇论文如下：

[00:25] 🧠 Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS（超越示例：通过蒙特卡洛树搜索在上下文学习中的高级自动化推理范式）

[01:06] 🌐 On Domain-Specific Post-Training for Multimodal Large Language Models（针对多模态大语言模型的领域特定后训练研究）

[01:39] 🎥 Video Depth without Video Models（无需视频模型的视频深度估计）

[02:10] 🧩 Puzzle: Distillation-Based NAS for Inference-Optimized LLMs（谜题：基于蒸馏的神经架构搜索用于优化推理的大型语言模型）

[02:58] ⏱ Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model（时间步嵌入提示：视频扩散模型的缓存时机）

[03:39] 🎥 Trajectory Attention for Fine-grained Video Motion Control（细粒度视频运动控制的轨迹注意力）

[04:26] 🌐 FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion（FAM扩散：频率与注意力调制用于稳定扩散的高分辨率图像生成）

[05:07] 🌊 DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding（DisCoRD：通过修正流解码将离散标记转换为连续运动）

[05:52] 📐 AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos（AlphaTablets：单目视频三维平面重建的通用平面表示）

[06:30] 🎥 Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing（每帧一览：视频-Ma²mba高效长视频理解的多轴梯度检查点技术）

[07:07] 📹 AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers（AC3D：分析并改进视频扩散变换器中的3D相机控制）

[07:52] 📰 LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification（无手动标注数据的文本分类LLM师生框架：以IPTC新闻主题分类为例）

[08:38] 🎥 Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling（时空跳跃引导增强视频扩散采样）

[09:09] 🔄 Reverse Thinking Makes LLMs Stronger Reasoners（逆向思维使大型语言模型成为更强的推理者）