或许多数人都难以想象,在 2025 年春节之际,大模型领域呈现出一片热闹非凡的景象。故事要追溯到十天之前,DeepSeek 正式开源了 DeepSeek - R1。这款模型在数学、代码以及自然语言推理等诸多任务上的表现,足以与 OpenAI o1 正式版分庭抗礼。此消息一出,众多 AI 研究者为之惊叹,大家纷纷展开思索,试图探寻其中的奥秘。与此同时,英伟达市值出现了幅度高达几千亿美元级别的波动,这一情况瞬间吸引了全球各界的目光。 围绕 DeepSeek 的技术创新,业内展开了广泛的探讨。不少人认为,DeepSeek 在硬件条件受到限制的情况下,另辟蹊径,走出了一条与 OpenAI 等单纯依靠堆叠算力截然不同的发展道路。它借助一系列先进的技术创新手段,不但有效降低了模型对算力的需求,而且还显著提升了模型的整体性能。 在被 DeepSeek 这一 “神秘的东方力量” 所震撼之后,硅谷方面的态度变得十分耐人寻味。从最初毫不吝啬的高度赞赏,到后来逐渐演变为网络攻击与审查行为,这种前后态度的巨大转变,充分体现出中国 AI 的崛起给大洋彼岸带来了强烈的冲击。 这不禁让人回忆起谷歌研究员在 2023 年做出的那个略显悲观的预估:“我们没有所谓的护城河,OpenAI 同样也没有。” 倘若我们进一步深入思考,就会发现,这份恐慌与焦虑的根源其实早已深深埋下,并非仅仅是由 DeepSeek 这一家公司所引发的。 当下,正是重新审视中国大模型发展态势的恰当时机,这其中涉及到的参与者众多,像文心一言、豆包、可灵等等都在其列。 国产大模型,如今已然实现全面崛起。 在过去两年的时间里,中国大模型凭借迅猛的发展势头,在多个垂直领域强势崛起,成功跨越了曾经横亘在前进道路上的重重障碍。 除了 DeepSeek 之外,文心一言所具备的 RAG 能力、可灵的文生视频技术以及豆包的语音生成功能等等,均已超越了美国的对标模型。 我们不妨先从视频生成领域的 “超越” 这一精彩篇章说起。2024 年春节期间,OpenAI 发布了 Sora,这一年也因此被视作视频生成技术蓬勃发展的爆发之年。然而,就在同年 6 月,可灵横空出世。它在文生视频技术的产品落地方面实现了实质性的领先,这一成果首次让硅谷方面清晰地认识到 “中国的 AI 技术具备独特的自身优势”。 由此,我们深刻意识到,中国或许无需再陷入重复 “追赶 OpenAI” 的漫长过程。而后续的发展进程也再次有力地验证了这一观点。 1、曾经 OpenAI 讳莫如深的「技术黑盒」,正在被逐一破解。 2、借助大量工程创新,国产大模型已经破除了对「英伟达 GPU」的迷信。 3、当中国 AI 的竞争对手开始在意、压制、攻击,折射出的是对方关于被追赶、超越的恐慌。 (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM
医疗具身智能作为一个融合了多个学科领域、发展迅猛的研究方向,广泛涵盖了 AI 算法、机器人技术以及生物医学等众多学科范畴。在这样的背景下,为了更有效地促进多学科之间的协同合作与共同发展,全面分析和系统总结医疗具身智能领域的最新进展以及所面临的挑战显得尤为重要。 近期,由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等多个团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线。该论文的第一作者为中南大学的刘艺灏,通讯作者则是香港科技大学(广州)的助理教授陈晋泰。这篇具有重要意义的综述论文,对具身智能在医疗领域的关键技术以及应用前景进行了全面且深入的梳理。 论文相关信息 * 论文标题:A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities * 论文链接:arxiv.org 具身智能如何赋能现代医疗 具身智能(EmAI)通过将多模态感知、行动控制、决策计划以及记忆能力进行深度融合,赋予了人工智能类似于人类的感知与执行能力。通过将 MLLMs、VLA models 等技术与机器人技术有机结合,具身智能展现出了适应复杂医疗环境的巨大潜力。以下是具身智能核心功能模块的具体介绍: 1.感知模块 具身感知作为 EmAI 系统的核心功能之一,通过多种感知方式助力系统更好地理解周围环境,并与之进行有效互动。具体包含以下几个方面: * 感官感知:这是整个感知过程的基础环节,通过收集来自不同感官传感器的输入信息,如视觉、触觉以及声音等,帮助系统构建起对外部世界的初步认知框架。 * 跨模态感知:为了使系统对环境形成更全面、深入的理解,跨模态感知通过整合不同模态的信息(例如将视觉信息与语言信息相结合),显著提升了感知的准确性和深度。这种跨模态的集成方式,使系统不仅能够精准解读复杂的场景信息,还能在动态变化的环境中做出更为有效的决策。 * 交互感知(Interactive perception):交互感知进一步推动了 EmAI 系统感知能力的发展与提升。它并非仅仅依赖于静态的传感数据,而是通过一系列物理行为,如对物体进行操作或者改变观察视角等方式,来解决感知过程中存在的不确定性问题。通过不断地探索这些行为并获取反馈信息,EmAI 系统能够在实际操作过程中持续完善自身的感知模型,从而更从容地应对各种复杂多变的任务。在执行物体操作或场景理解等任务时,交互感知的重要性尤为凸显。 2.行动模块 行动模块是具身智能不可或缺的基础组成部分,主要涉及如何运用各种控制策略来引导系统实时做出动作。这些控制策略涵盖了动作的选择与执行过程,旨在依据感知信息进行实时调整,从而优化运动控制,以完成各类精细的操作任务。通过不断探索更优的策略表示和策略学习方法,具身智能实现了更高的精准性与适应性。 * 控制策略的表示方式:控制策略的表示通常有显式策略、隐式策略和扩散策略这三种方式。显式策略通过行为克隆等方法,直接将观察结果映射为动作,这种方式适用于相对简单的任务场景,但在面对复杂任务时可能存在局限性。隐式策略则借助能量函数来表达动作选择的偏好倾向,更适合处理多模态任务,具有较强的表达能力。扩散策略通过去噪扩散生成模型来生成控制策略,能够提供更为多样化的表示形式,尤其在离线强化学习和基于视觉的操作场景中展现出较大的应用潜力。 * 策略学习方法:在策略学习方面,强化学习(RL)和模仿学习(IL)是两种主要的学习方法。强化学习通过不断尝试和错误的方式来优化控制策略,依据环境反馈实时调整自身行为,以实现目标的最优化,适用于需要长期适应环境变化的任务。然而,强化学习往往面临采样 3、决策模块 与低级控制策略处理简单的实时动作不同,高级规划主要聚焦于如何将复杂任务分解为多个子任务,并通过逻辑推理和决策来完成这些任务。传统的规划方法,如 A * 算法和 Dijkstra 算法,虽然在结构化环境中非常有效,但在面对复杂的高维状态空间或部分可观测环境时,往往面临较大的挑战。因此,近年来,基于 LLM 的高级规划方法逐渐得到应用,它通过将抽象的指令转化为可执行的机器人任务,从而实现了认知推理与物理任务执行的结合。近年来,端到端具身大模型也逐渐被提出,这种方法将高级决策规划与低级动作生成整合到一个统一的系统中,能够更加高效地处理复杂的任务指令,避免了传统方法中不同模块之间的分离和局限。 [图片] 表 2:规划方法总结 4、记忆模块 记忆模块主要负责存储和处理系统的经验和知识,以帮助其在复杂环境中进行自我适应和决策。记忆在 EmAI 系统中通常分为短期记忆和长期记忆两种形式,它们各自发挥着不同的作用。Ⅰ) 短期记忆主要用于处理和存储系统在当前任务或交互中所需要的即时数据,例如当前的感知信息或上下文内容。例如,在与用户的对话中,EmAI 系统会保持对话历史,以便实时调整其响应。Ⅱ) 长期记忆则主要用于存储更为持久和重要的知识,支持系统的长期学习和适应。通过集成长期记忆,EmAI 能够将过去的经验用于未来的决策和推理。存储长期记忆通常通过内部模型权重或外部数据库来实现。内部记忆的更新通常通过监督微调、指令微调等方法来实现,而外部记忆的更新则依赖于外部数据库或知识图谱的动态改进。 Applications:四大应用场景的实践与突破 论文探讨了具身智能在以下四大医疗健康领域的研究实践和应用: * 临床干预:从术前诊断到术后康复,支持精准医疗的全流程覆盖。 * 护理陪伴:提升儿童、老年人及特殊人群生活质量,减轻护理负担。 * 设施运转:通过应急响应、药品分配等任务优化医疗资源。 * 研究开发:加速数据分析与实验自动化,为医学突破提供动力。 [图片] 高质量的数据集是推动具身智能研究发展的基石,对于提升系统的性能和可靠性至关重要。如图 8 所示,这些数据集涵盖了临床干预、日常护理陪伴、生物医学研究等多个领域,为 EmAI 系统提供了丰富的训练材料。然而,目前的高质量数据集仍存在一定的局限性,特别是在样本多样性和多模态数据整合方面。现有数据集可能面临样本不足、区域和人群代表性不均等问题,这使得它们难以应对不同临床环境或个体差异带来的挑战。同时,多模态数据整合也亟需加强。目前,许多数据集依赖单一的感知输入(如视觉或语言),而忽略了触觉、声音等其他感知维度的整合,这限制了 EmAI 系统在复杂场景中的应用潜力。 [图片] 具身智能在医疗领域展现了巨大潜力,但其发展仍面临着多重挑战,主要包括伦理和法律问题、技术准确性和可解释性问题,以及与现有医疗系统的互操作性问题。尤其是在责任划分、患者同意和数据透明度等方面,需要建立明确的法律框架和伦理监督机制,同时技术的准确性和系统的互通性也亟待解决。从个性化诊疗到实验室自动化,具身智能正在全面变革医疗服务,通过持续技术创新和跨学科协作,具身智能将为全球医疗系统带来深远影响,推动智慧医疗迈向新的高度。 (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM
经过一系列涵盖从创意写作到复杂教学等多个领域的测试,DeepSeek-R1 展现出了令人瞩目的实力,其综合表现足以与 OpenAI 的付费 “精英” 产品一较高下。事实证明,选对方法,走性价比路线同样能在 AI 竞技场上大放异彩! DeepSeek 发布其开放权重的 R1 推理模型仅一周时间,便在海内外引起了多次轰动。它不仅训练成本只是 OpenAI 最先进的 o1 模型的一小部分,性能方面竟也能与之相抗衡。 虽说 DeepSeek 可以凭借常见的基准测试结果以及 Chatbot Arena 排行榜来证明自身模型的竞争力,但直接的使用案例往往更能直观地体现模型的实用性。为此,科技媒体 arstechnica 的资深编辑决定对 DeepSeek 的 R1 模型和 OpenAI 的 ChatGPT 模型展开一场对比测试。此次测试并非聚焦于解决最具挑战性的问题,而是着重模拟用户在日常中可能提出的各种问题。 在这次测试中,DeepSeek 的每一个回答都分别与 ChatGPT 每月 20 美元的 o1 模型以及每月 200 美元的 o1 Pro 模型进行比对,以此来评估它与 OpenAI “最先进” 产品以及大多数 AI 消费者日常使用产品相比的表现。 本次测试所使用的提示(prompt)广泛涉及创意写作、数学、指令遵循等多个领域,还包括一些特意设计得更为复杂、要求更高且更严谨的 “hard prompts”。在评判测试结果时,团队不仅考量模型回答的正确性,还兼顾了一些主观质量因素,同时参考模型输出的思维链,以便更深入地了解它们内部的运作机制。 在此提前透露一下,接下来共有 8 场 “擂台比拼”,DeepSeek:o1:o1 Pro 的比拼结果为 5:2:4。来音频听听详细比拼内容吧~ 原文链接:arstechnica.com (部分资料来源网络) 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM
当前,大多数现有的视频生成模型在学习知识时,主要依赖语言或标签数据,很少涉及对纯视觉信号的学习,就像 Sora 这类模型便是如此。 然而,语言存在一定局限性,并不能涵盖真实世界里的所有知识。比如折纸、打领结这类复杂任务,很难单纯依靠语言进行清晰、准确的表达。 那么,模型是否能够不借助语言模型,仅仅从纯视觉的角度去学习知识、认知世界,进而掌握推理和规划等能力呢? 如今,豆包大模型团队携手北京交通大学、中国科学技术大学,共同推出了 VideoWorld。 这是一款通用的视频生成模型,即便不依赖语言模型,它也能够统一执行理解和推理任务。VideoWorld 借助一种潜在动态模型(Latent Dynamics Model,LDM),可以高效压缩视频帧与帧之间的视觉变化信息,从而大幅提升知识学习的效率和效果。 最终,VideoWorld 在没有借助任何强化学习搜索或奖励函数机制的情况下,达到了专业 5 段的 9×9 围棋水平,并且能够在多种不同环境中执行机器人任务。 豆包团队视频生成新突破:无需语言模型,仅凭 “视觉” 就能学习复杂任务 视频地址: mp.weixin.qq.com 这一研究成果在业内已经引发了一定程度的关注。 AI 领域大 V、科技评论网站 ReadMultiplex 创始人 Brian Roemmele 认为:这是机器人学习和推理领域的一项重大进步。 论文作者观点 论文作者表示,尽管在真实世界视频的生成和泛化方面,仍然面临着巨大挑战,但视频生成模型有潜力成为一种通用的知识学习方法,甚至可以充当在现实世界中进行思考和行动的人工大脑。 目前,该项目的代码与模型均已开源。 仅凭 “视觉”,就能学习复杂任务 就如同李飞飞教授 9 年前在演讲中提到 “幼儿可以不依靠语言理解真实世界” 一样,在自然界中,大猩猩以及其他灵长类动物主要依靠视觉观察来学习诸如觅食和社交互动等重要技能。人类婴幼儿同样在不借助语言的情况下,就能够理解周围的环境。 那么,人工智能模型能否仅通过视觉输入来汲取知识呢? 为了探寻其中的答案,研究团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控。 研究者们觉得,围棋能够很好地用于评估模型的规则学习、推理以及规划能力。而且围棋图像可以将外观、纹理等复杂细节与高级知识的评估分离开来,非常适合用于探索上述问题。同时,机器人任务则可以考察模型理解控制规则和规划任务的能力。 在模型训练过程中,使用的是一个包含大量视频演示数据的离线数据集,通过这个数据集,得到一个可以根据过往观测来预测未来帧的视频生成器。 训练结束后,模型能够直接学习一个与任务相关的映射函数,将生成的视频帧转化为任务执行所需的动作。这使得视频生成模型在不依赖任何动作标签的情况下,也能够学习和执行具体任务。 一开始,团队使用朴素的自回归模型来实例化视频生成器,该模型包含一个 VQ-VAE 编码器 - 解码器和一个自回归 Transformer。编码器负责将视频帧转换为离散的标记,Transformer 在训练期间利用这些标记来预测下一标记。 在推理阶段,Transformer 生成下一帧的离散标记,随后这些标记由解码器转换回像素空间。 基于上述朴素的框架,研究团队发现,视频生成模型能够掌握基本的围棋规则、走棋策略以及机器人操纵能力。 但与此同时,团队也发现,视频序列的知识挖掘效率明显低于以文本形式呈现的知识,具体情况如下图所示。 团队分析原因 团队将这一现象归结为 —— 视频中存在大量的冗余信息,这在一定程度上影响了模型的学习效率。 例如,棋子的移动其实可以仅通过状态序列中的少量位置标记进行编码,然而在视频中,视觉编码器却需要产生多得多的标记。这种差异对于模型快速学习复杂知识是不利的。 压缩视觉变化,让视频学习更加高效 基于上述观察结果,团队提出了 VideoWorld。它在保留丰富视觉信息的基础上,对与关键决策和动作有关的视觉变化进行压缩处理,以此实现更高效的视频学习。 VideoWorld 引入了一个潜在动态模型(Latent Dynamics Model, LDM),将帧间的视觉变化压缩为紧凑的潜在编码,从而提高模型对知识 论文链接:arxiv.org 代码链接:github.com 项目主页:maverickren.github.io (部分资料来源网络) 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM
在过去两年间,城市场景生成技术实现了飞速发展,与此同时,一个全新概念 —— 世界模型(World Model)崭露头角。当下的世界模型大多借助 Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成领域取得了令人瞩目的成就。然而,这些方法始终面临一个关键难题:怎样在视频生成过程中确保多视角一致性? 在 3D 生成模型的范畴里,这一问题却并非难题 —— 它天生就支持多视角一致性。基于这一发现,南洋理工大学 S-Lab 的研究人员提出了一种全新框架:CityDreamer4D。它打破了现有视频生成的局限,不再仅仅是简单地 “合成画面”,而是直接对城市场景背后的运行规律进行建模,进而打造出一个真正无边界的 4D 世界。 倘若世界模型的终极目标是构建一个真实且可交互的虚拟城市,那么我们真的还需要依赖视频生成模型吗?不妨来看看 CityDreamer4D 是如何突破现有方案,构建出一个真正无边界、能自由探索的 4D 城市世界 —— 一起来欣赏它的生成效果! 若您想深入了解 CityDreamer4D 的技术细节,我们已为您准备好完整的论文、项目主页以及代码仓库! 图片 论文链接:arxiv.org 项目链接:haozhexie.com GitHub 链接:github.com (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM
美西时间 1 月 25 日凌晨,在全球最大众筹网站 Kickstarter 上,Halliday AI 眼镜上线短短 72 小时,便成功募集超过 137 万美元,超募比例高达 6861%,一举创造了史上最大 AR/AI 眼镜项目的众筹纪录。 人们首次认识 Halliday AI 眼镜,是在不久前举办的 2025 CES 上。当时现场展出了超 50 款 AI 眼镜,海外科技媒体很快就察觉到了 Halliday 的独特之处。 它是 “轻量级选手”:含镜片重量仅 35 克,相较于其他 AI 眼镜,重量减轻了三分之一甚至一半以上,几乎与普通框架眼镜无差; 带来隐形 AI 体验:不少媒体在体验后将 Halliday 称作首款 AI 隐形显示眼镜。它摒弃了光波导显示方案,采用微型显示模组,将信息投射到用户视野中展示,旁人根本察觉不出用户正在使用 AI 功能; 续航能力出众:Halliday 的标配续航时长为 12 小时,完全能满足一整天的使用需求。 许多体验过的人都表示,Halliday 不仅佩戴舒适,还能使用矫正镜片,外观设计还十分时尚,本身就是一副很棒的眼镜,同时还具备众多创新的 AI 功能体验,大家很乐意将其作为日常眼镜的升级之选。 [图片] 随着 Halliday 的热度不断攀升,微软、Meta、谷歌等科技巨头的硬件团队纷纷前往体验,这款产品迅速成为 CES 上的最大亮点。从 CES 引发的轰动,到在各类科技圈活动中成为热议焦点,Halliday 一跃成为 AI 硬件领域的明星项目。可以说,这持续不断的关注度在很大程度上促使了其众筹纪录的诞生。 一位来自硅谷大厂的智能硬件高管在交流活动中提到,今年在 CES 上,最让他印象深刻的产品,是几个中国年轻人打造的一款名为 Halliday 的眼镜。他们重新审视了 AI 眼镜的诸多定义,给行业带来了诸多启发。 打败 Ray-Ban Meta 的 一定不是另一个 Ray-Ban Meta Halliday AI 眼镜成为黑马的背景是,大家普遍对于此前的 AI 眼镜产品形态感到不满。 这一轮 AI 眼镜火热的起点是 Meta 联合雷朋(Ray-Ban)共同推出第二代 Meta 眼镜,在 2024 年上半年的出货量超过 100 万台,成为爆款智能硬件,引发全球大小厂商跟进,这也是为什么我们在今年的 CES 上能看到数十家不同品牌的 AI 眼镜的原因。 但目前市场上出现的大多数 AI 眼镜大多都是延续 Ray-Ban Meta 的产品形态,或进行简单的参数提升,或通过降低价格来吸引用户,但这些策略并没有从根本上让用户体验变得更好。 比如 Ray-Ban Meta 主打摄像头拍摄的场景,将眼镜上的摄像功能做到了可用的程度,但电池续航一直是这款产品的痛点,仅为 4 个小时。虽然它借鉴 AirPots 的创意为用户提供了充电眼镜盒,但它的体型决定了并不如 AirPots 那样方便携带。如果有近视需求的朋友,则需要准备至少两副 Ray-Ban Meta 眼镜和充电盒随身携带,佩戴其中一副时,另外一副放在眼镜盒里充电,这样才能保证一整天有眼镜可用。 而它的拍摄功能同样受到续航制约,一开始只支持最多 1 分钟的录制,后来升级后也只支持最多 3 分钟的录制。 而其他的 Ray-Ban Meta 们也同样困扰在同样的问题上,有的尝试能耗更小的拍摄方案,有的则尝试在眼镜之外挂一个充电宝。同时,为了把更多功能塞进眼镜里,不得不把眼镜做得又大又重。很多眼镜还采取金属材质进行拼接,方便线路设计,于是市场上出现了很多形态高度相似的 AI 眼镜。 一家深圳代工厂曾为客户制作了一款重量为 200 克的 AI 眼镜样品,由于实在不便于人体佩戴,不得不放弃一些具有技术噱头的功能配置。 在这样的市场背景下,Halliday 的出现则宛如一股清流。 很多在现场体验过 Halliday 的人,都会一下被吸引。足够轻,能够日常佩戴;续航长,能满足一整天的使用;设计时尚,特意提供了时尚人士所喜爱的配色,便于穿着搭配。Halliday 跳脱出了 Ray-Ban Meta 所定义的智能眼镜形态,从用户体验的出发,重新创造了一款用户可日常佩戴的 AI 眼镜。 同时,对一款 AI 硬件来说,如果能够被用户每天使用 12 小时以上,那它的 AI Agent 能够不断强化,越来越接近漫威电影里贾维斯(J.A.R.V.I.S.)。 开启智能眼镜的新纪元 在智能眼镜领域,近年来一直都有新产品问世。除了 Ray-Ban Meta 为代表的拍摄眼镜之外,还有不少增强现实的 AR 眼镜在拓展拓展企业级应用和娱乐游戏的场景。 随着 AI 技术的成熟,越来越多的人开始意识到,眼镜或许是 AI Agent 最重要的硬件载体之一,有望成为继手机之后,新的消费电子大单品,智能眼镜开始进入以 AI 为核心的新纪元。 那么在 AI 眼镜时代,核心要素有哪些呢? Halliday CEO 慈然用一条 16 分钟的视频分享了他们团队对于 AI 眼镜的产品理念,其中一个核心的认知是,一款好的 AI 眼镜,它首先得是一款好的眼镜。 他们在产品研发过程中为 Halliday 定下了三条产品红线: 第一,重量不能超过 35 克,这是一副可日常佩戴的正常眼镜的重量; 第二,外观设计需要好看,得符合人体工学设计,眼镜具有时尚属性,用户愿意戴,一定得好看才行; 第三,续航必须满足用户一天的使用需求。 对用户需求的准确洞察与团队背景有很大关系。Halliday 的核心团队来自未目科技,它是亚洲最大的彩色隐形眼镜品牌 moody 的母公司,慈然也是 moody 的创始人。在过去的公开报道中,慈然曾多次分享过他是如何发现美瞳市场用户需求故事。moody 成立于 2021 年,仅用了 2 年便超过了国际四大巨头,成为了中国美瞳市场的销冠。在上一轮融资中,moody 估值超过 10 亿美金。 在消费领域成功的创业经历,让他们更重视对于用户需求的洞察,但用户需求的满足,也离不开全球领先的技术创新。Halliday 的体验在 CES 一众激烈的 AI 眼镜竞争中脱颖而出,背后还源于 Halliday 和另外一个团队的紧密合作。 从 2022 年开始,Halliday 与 AI 硬件整体解决方案提供商 Gyges Labs 建立了战略合作关系,moody 成为两个团队共同的投资人。 Gyges Labs 是一群极具科学家气质的创业团队,成员均来自斯坦福、清华等国内外知名高校,并在苹果、Google 等企业担任过核心技术研发职责。Halliday 所搭载独特的光学显示技术 DigiWindow,正是来自 Gyges Labs 的技术突破,通过世界上最小的显示模组重新定向 Micro LED 显示屏的光线,将虚拟屏幕投射到用户视野的右上角,而其他人无法察觉。配合 Halliday 的指环控制系统,用户可以神不知鬼不觉地在眼镜上使用 AI 功能。 [图片] 两个团队在各自领域的顶尖实力和彼此之间的高度互补,成就了 Halliday 首代产品一经推出就引发轰动。有多个智能硬件团队表示,Halliday 给行业带来了全新的产品创新范式,他们正在深入研究。 什么是 AI 眼镜的核心功能? 在 AI 眼镜上什么功能才是第一位的?有人认为是摄像头,所以要把眼镜上的摄像头效果做得跟手机一样好。有人认为是声音,主推听歌、打电话、语音问答等功能场景。但从 Halliday 的这款产品来看,他们的答案是,显示。 有用户在体验过 Halliday 后分享,AI 通过文字显示信息,比语音的效率要高得多。他在体验中使用 Halliday 的实时翻译功能帮助两个人使用中文和英语沟通,字幕显示的延迟仅半秒左右。 据现场人员介绍,Halliday 还有一个核心功能叫主动式 AI。当我们在跟人聊天时,它可以自动捕捉关键信息,通过显示技术提供实时的信息支持显示或纠错提示。随着 AI 能力的不断优化,这个功能会替代我们现在的信息搜索这个动作,AI 眼镜就成为一个隐形的超级大脑,让佩戴 Halliday 眼镜的用户在无形之间拥有超能力。 同时,戴智能手表的两个主要功能,消息提醒和健康监测,随着 Halliday 的逐步完善,AI 眼镜的信息提醒会更方便,甚至不需要你抬手。而健康监测的功能,未来通过配套的指环同样也能够很容易实现。 慈然在视频中分享他们对于 AI 眼镜的功能思考,他提出了两大原则: 一是,只开发在智能眼镜上有意义的功能。他们不会复制手机功能,而是对其进行增强,让用户能够更高效地与应用程序或功能进行交互。 二是,使用 AI 眼镜时无需拿出手机。如果还得拿出手机配合使用,那眼镜就没有意义了。 因此,Halliday 没有提供摄像头功能,这个功能在硬件上不可能接近今天手机的体验。同时,还有隐私担忧和续航影响。那相比之下,显示功能则可以大幅提升 AI 功能的用户体验,而视觉也是人类最高效的信息输入方式。 在产品体验时,Halliday 提供了信息通知、实时翻译、演讲字幕、AI 录音等功能,主要以生产力场景为主。 [图片] 从 CES 的轰动到刷新行业众筹纪录,Halliday 在不到一个月内成为了 AI 智能眼镜领域的明星项目。他们的成功,可以归功于三大关键因素: 首先是精准的产品战略,他们没有追随 Ray-Ban Meta 的路线,而是基于用户需求重新定义了产品形态,用克制与专注取代了功能堆砌; 其次是核心技术的突破,DigiWindow 显示方案将 AI 眼镜的用户体验向前推进了一大步; 最后是全球化营销的专业执行,无论是 CES 上的首秀还是超额完成的众筹,都体现了对市场节奏的精准把控。 这一切的背后,是 Halliday 和 Gyges Labs 两支团队高度互补的合作。前者以用户洞察和产品思考为导向,后者以尖端技术为支撑,两者的紧密协作共同成就了一款真正颠覆性、日常可用的 AI 智能眼镜。 (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM
在国内外 AI 圈,普通网友发现了神奇的强大新 AI(还开源),学界专家纷纷喊出「要奋起直追」,还有小道消息称海外的 AI 公司已经如临大敌。 就说这个本周刚发布的 DeepSeek R1,它没有任何监督训练的纯强化学习路线令人震撼,从去年 12 月 Deepseek-v3 基座发展到如今堪比 OpenAI o1 的思维链能力,似乎是很快达成的事。 但在 AI 社区热火朝天的读技术报告、对比实测之余,人们还是对 R1 有所怀疑:它除了能跑赢一堆 Benchmark 以外,真的能领先吗? 能自建模拟「物理规律」 你不信?来让大模型玩玩弹球? 最近几天,AI 社区的一些人开始沉迷一项测试 —— 测试不同的 AI 大模型(尤其是所谓的推理模型)来处理一类问题:「编写一个 Python 脚本,让一个黄色球在某个形状内弹跳。让该形状缓慢旋转,并确保球停留在形状内。」 一些模型在这项「旋转球形」基准测试中的表现优于其他模型。据 CoreView CTO Ivan Fioravanti 称,国内人工智能实验室 DeepSeek 的开源大模型 R1 完胜 OpenAI 的 o1 pro 模式,后者作为 OpenAI ChatGPT Pro 计划的一部分,每月收费 200 美元。 2025是AI赛道的优胜劣汰期,你还没有关注AI的话,可能会跟不上时代的脚步哦~ 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM
近日,一场别开生面的文化盛宴在社交媒体拉开帷幕。多地文旅纷纷在官方账号发布剪纸风格的视频,以独特的视角展现当地丰富的文旅资源,将传统非遗文化与春节的喜庆氛围完美融合,这一创新形式收获网友大量点赞。 在这些令人眼前一亮的视频中,各地的标志性景点和特色风土人情以剪纸艺术的形式生动呈现。细腻的线条勾勒出西安大雁塔的宏伟庄严,鲜艳的色彩展现出塞上江南的瑰丽,精致的图案描绘出江南水乡的温婉秀丽。每一幅剪纸都仿佛在诉说着一个地方的故事,让大众在感受剪纸艺术魅力的同时,领略到祖国大地的壮美多姿。 本次剪纸效果采用了剪映提供的“中式剪纸”模板功能。作为字节跳动旗下的视频创作工具产品,剪映团队发挥技术优势,将AI新技术与传统剪纸艺术深度融合,为创作者提供了便捷且强大的创作工具。通过AI算法,用户只需上传照片素材,就能快速生成效果精细的剪纸风格视频,大大降低了创作门槛,让更多人参与到创作中来。 除了风景类的剪纸视频模板,剪映在春节期间还推出了丰富多样的其他模板,如人物剪纸模板。用户可以通过这些模板,将自己或身边人的形象创作为剪纸风格的人物,为视频增添更多趣味性和个性化元素。无论是阖家团圆的场景,还是展现个人风采的画面,都能通过这些模板以独特的剪纸艺术形式呈现。 剪映相关负责人表示,新春将至,希望通过AI技术的应用让剪纸艺术突破地域和传统展示形式的限制,激发更多人对家乡的热爱,鼓励大家用这种新颖的方式秀出自己家乡的风景,共同分享美好。 大家都可以去剪映上试试属于自己的剪纸艺术~ (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM
百川智能发布了国内首个全场景深度思考模型Baichuan-M1-preview。该模型是国内目前唯一同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等多个权威评测中,Baichuan-M1-preview的表现均超越了o1-preview,展现了其在多领域推理方面的独特优势。 此外,作为国内唯一专注医疗领域的头部大模型公司推出的深度思考模型,它还解锁了医疗循证模式,实现了从医疗证据检索到深度推理的完整端到端服务,能够快速、精准地回答医疗临床、科研问题。 [全场景深度思考模型发布:囊括三大推理能力,解锁医疗循证模式] Baichuan-M1-preview现已在百小应中正式上线,在深度思考模式下不仅能准确解答数学、代码、逻辑推理等问题,面对复杂医疗问题,还能像资深医疗专家一样,通过深度思考构建严谨的医学推理过程,为用户提供全面的疾病分析和个性化健康管理建议。 为了更好地繁荣AI医疗生态,助力医疗事业发展,百川智能还同时推出了行业首个开源医疗增强大模型Baichuan-M1-14B,其医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。 Baichuan-M1-preview多项能力超越o1-preview,解锁医疗循证模式 作为一个全场景深度思考模型,Baichuan-M1-preview的能力全面,具备强大的语言推理、视觉推理及搜索推理能力。语言推理方面,其在AIME和Math等数学基准测试,以及LiveCodeBench代码任务上的成绩均超越了o1-preview等模型。 [全场景深度思考模型发布:囊括三大推理能力,解锁医疗循证模式] 视觉推理方面,在MMMU-val、MathVista等权威评测中的成绩,超越了GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview等国内外头部模型。[全场景深度思考模型发布:囊括三大推理能力,解锁医疗循证模式] Baichuan-M1-preview的另一大亮点是解锁了医疗循证模式。在面对复杂医学问题时,会将专业可靠的医疗知识作为推理依据,帮助用户做出最佳的医疗决策。 为实现这一能力,百川智能自建了涵盖亿级条目的循证医学知识库,囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等专业医疗内容,且以天为单位进行动态更新,及时收录医疗领域的新突破、新进展。 众所周知,医学知识多样性强、因果关系复杂。因此,即使构建了庞大的医疗知识库,在调用其中的医学知识,尤其叠加了互联网上搜索到的医疗信息时依然会遇到部分医学数据、医学理论不一致的情况。 针对这一问题,医疗循证模式能运用医学知识和证据评估标准,对证据进行多层分级,并对不同权威等级的证据进行专业分析与整合,精准识别各类权威信息的来源和可信度,从而避免因信息混杂导致的误判,然后基于这些医学证据进行可靠、准确的医学推理,最终提供可信赖的医疗答案。 (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM
最近刷到《封神》女主娜然的时尚杂志大片,让人眼前一亮的可不止是她的颜值。那套缠绕在她身上的灵蛇珠宝,性感又带点野性,简直让人移不开眼。 有趣的是,这组珠宝的设计师可不是什么巴黎大师,而是一位不知疲倦的数字工匠——可灵 AI。(没错,就是那个快手自研的视频生成大模型。) 现在连珠宝设计这种精细活儿,AI 都能玩得转了。那些整天为设计灵感发愁的珠宝、文创设计师们,可能要坐不住了... 虽然咱还享受不了可灵 AI 的珠宝定制服务,但要找个平替也不难。 Mariam Naficy 之前创办过两家公司,一个卖化妆品,一个是设计。她最近又搞了个新项目叫 Arcade AI,这次玩的是让用户自己当设计师。 一年前,他们上线了测试版,用户在平台上被叫做梦想家——你把想法输入进去,AI 就会给你生成各种珠宝设计方案,还能上传图片参考。 输入:A vintage necklace featuring a male lion head pendant(复古风格的项链,坠饰为一头雄性狮子头) [图片] 还想修改一下设计?没问题,系统提供简单工具进行微调。 [图片] 选好设计后,入驻平台的手艺人就会把这些数字设计变成真实的珠宝,啥都能做—— 手链、吊坠、耳环、项链、戒指应有尽有。 材料也很丰富,有黄金、黄铜、白银,还有各种宝石,钻石、石榴石、红宝石都有。 [图片]入驻平台的手艺人就会把这些数字设计变成真实的饰品。 我个人更喜欢图片模式。上传一张黑红阔嘴鸟的照片。 [图片] 一眨眼,文创饰品设计出炉!是不是非常可爱?这不比很多文创商店的设计还好? 最关键的是:不撞款!就你有! [图片] 如果你特别喜欢蛋白石,就让 AI 设计了一条精致的金色花朵项链。然后找了平台上的 Studio Maisette 工作室制作,没几天就收到成品视频,进行确认。从下单到收货总共用了大概两周。 [图片] 看着挺简单的一条项链,记者觉得特别符合她的审美。她还找了个懂宝石的朋友看了看,说上面的三颗蛋白石品质不错。 不过,AI 也有做不好的时候。比如想在项链上加多个吊坠就不行,想做个二十面骰子这种复杂的东西也搞不定。 原因也很简单——为了确保设计能真的做出来,得根据工匠的能力来限制一下 AI 模型。 虽然平台有编辑工具可以增删改,但有时候最后做出来的效果还是跟想象的不太一样。 体验链接:www.arcade.ai (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM
日均10亿Tokens消耗量,AI业务跑通的基本标准。 量子位结合2024下半年市场数据盘点,达到这一红线的中国企业,至少200家,覆盖企服、陪伴、教育、互联网、游戏、终端等领域。 这意味着,大模型时代的“抢风口”大战告一段落,真正具备价值参考的商业模式开始明确。 各个垂直领域的先行者能够找到场景,做到单日至少消耗10亿Tokens,就是最直接的证明。 不过问题是,日均10亿Tokens基准线,why? 看日活、看单用户Tokens消耗 首先来计算下,日均10亿Tokens消耗量是什么概念? 参考DeepSeek API文档中给出的标准: 1 个英文字符 ≈ 0.3 个 Token。 1 个中文字符 ≈ 0.6 个 Token。 在中文世界里,10亿Tokens约代表16亿+汉字。换算成对话量,一本《红楼梦》的字数在70-80万左右,相当于一天和AI聊了2000本《红楼梦》的内容。 按照一个生成式AI模型单次响应平均需要处理1000个Tokens估算,10亿Tokens意味着一天将完成100万次响应。 如果是To C应用,100万次响应背后,至多将是100万DAU。 以作业帮为例,仅推算其旗下出海产品Question.AI的数据,单日消耗Tokens就接近10亿规模。 这款AI教育App以大模型为基础,它支持拍图搜题、智能助教等功能,能以Chatbot的形式讲解回答问题。 根据作业题目以及实际场景问答预估,一轮对话Tokens消耗量500,单人单日平均对话至少3轮。已披露数据显示,Question.AI的DAU将近60w。 由此推算,仅Question.AI的单日Tokens消耗量已接近10亿规模。与此同时,作业帮还布局多款AI应用,并推出了多款AI学习机,每日Tokens消耗总量只会更多。 再来看AI陪聊赛道的筑梦岛。 根据最新披露消息,筑梦岛累计创作者数量超50万人,Top20人物中以原创人物为主,占比85%。筑梦岛用户平均单用户单日输入字数可达4000字以上,人均日对话轮次超120轮。 单用户单日平均获得的AI输出,按照输入的2-3倍计算,大约在8000-12000字(AI输出包括AI虚拟人对话回复、AI生成提示回答等)。 量子位智库数据显示,筑梦岛DAU目前在10万水平。由此可以推算,筑梦岛单日Tokens消耗量超过10亿规模。 如果来到终端场景,Tokens的消耗方式则变得更加多元。 AI手机中除了智能助手,还有各种渗透在系统里的AI功能,比如一键路人消除、通话总结、一键识屏等。据OPPO 2024年10月数据,小布助手月活突破1.5亿。 更进一步,云厂商披露的Tokens调用量以及合作客户情况也为这一基准提供参考。 2024年7月,腾讯混元披露单日调用量达千亿Tokens(包含自身业务)。 2024年8月,百度披露文心大模型日均调用量超6亿次,日均处理Tokens文本超1万亿;截止11月初文心大模型的日均调用量——超过 15 亿次。一年前这个数据是5000万次,一年增长了30倍。 2024年7月,豆包大模型平均每家企业客户日均Tokens使用量增长了22倍。12月字节最新透露,豆包通用模型日均Tokens使用量超过4万亿。[AI时代不看独角兽,看10亿Tokens日均消耗] 如此消耗,来自于谁? 参考火山引擎官网披露的客户名单,来自汽车、金融、互联网、消费零售、智能终端、游戏、医疗健康赛道的头部厂商们都很突出,也都是大家耳熟能详的品牌。 与此同时,这群“10亿Tokens俱乐部成员”在2024年过得如何,也为这一价值红线提供了有力参考。 AI业务成为拉动增长的关键贡献 首先来在海外异军突起的作业帮。 2023年9月,作业帮推出融合多年教育数据和AI算法积累的银河大模型。它专门为教育领域打造,覆盖多学科、多学段、多场景。 据Sensor Tower监测2024上半年数据,其旗下出海产品Question.AI杀入美国AI类应用下载量前三,并拿下百万MAU。另一款对话型AI产品Poly.AI同样进入下载的前三十名。 [AI时代不看独角兽,看10亿Tokens日均消耗] 另一边,在更能带来直接营收的AI学习机方面。 2024年7月,沙利文调研认证作业帮在上半年拿下中国全网学习机销量第一。洛图科技数据显示,2024年第三季度,作业帮学习机产品以20.6%的市场份额位居线上市场销量榜首。企业服务领域,金山云在2024年第一季度财报中明确表示,该季度总收入环比稳定增加3.1%,主要来自于AI相关客户。 公有云收入11.87亿元,较上季度增长12.9%,主要由AI客户贡献。在主动缩减CDN服务规模的情况下,这部分增长拉动整体公有云收入,较2023年同季度增加2.9%。 这种趋势在第二季度、第三季度延续,AI客户依旧贡献了公有云业务以及整体收入的主要增长。 再来看离大家日常生活最近的AI手机。 在大模型趋势开启后,OPPO旗帜鲜明拥抱浪潮,将生成式AI功能引入ColorOS以及全产品系列,2024年让将近5000万OPPO用户的手机搭载GenAI功能。 Counterpoint数据显示,2024年全球前四大(市场占有率)智能手机厂商分别为三星、苹果、小米、OPPO。 而根据Canalys的数据,2024年,全球16%的智能手机出货量为AI手机。预测显示,到2028年这一比例将激增至54%。2023年至2028年间,AI手机市场预计将以63%的年均复合增长率(CAGR)增长。这一转变将首先在高端机型上出现。 比如OPPO最新发布的Find X8系列,AI味就更加浓厚。通过引入豆包通用模型Pro、豆包通用模型Lite、豆包・角色扮演模型以及更强的大模型实时联网检索能力,OPPO Find X8系列可以提供更加细致的AI服务体验。 [AI时代不看独角兽,看10亿Tokens日均消耗] 这种趋势反映到云计算领域,则是更大规模的Tokens消耗量。 火山引擎谭待曾在采访中表示: 五年后,企业用到的日均Tokens可能达到几百万亿,尤其在多模态大模型推出后,各场景内都会有Agent助理跟随,带来很大的消耗量。 得出如此数据预估背后,是对算力基础设施、Agent发展、AI应用开发以及整体大模型落地变化的细微洞察。 Agent+AI Infra,百万亿Tokens消耗不是梦 先从应用落地角度来看,Agent趋势愈加明显,AI原生应用开始发力。 OpenAI CEO奥特曼的年终盘点中提到: 我们相信,在 2025 年,我们可能会看到第一批人工智能代理 “加入劳动力大军”,并实质性地改变公司的产出。 紧接着,OpenAI身体力行,上线Agent能力,ChatGPT开始有了执行力,可以替人完成各种任务。 [AI时代不看独角兽,看10亿Tokens日均消耗] 更落地层面,量子位智库观测到AI原生应用开始发力。 伴随着底层模型能力不断升级,AI智能助手APP在过去一年中增长明显。 2024年,AI智能助手APP端的新增用户规模就超过3.5亿。12月的单月新增用户超过5000万,相较于2024年初实现了近200倍的增长。 以豆包为例。豆包在9月成为国内用户规模破亿的首个AI应用后,目前以超50%的市场份额坐实“国民级AI原生应用”和“AI智能助手APP No.1”。 [AI时代不看独角兽,看10亿Tokens日均消耗] 就在今天,豆包大模型1.5 Pro最新上线,能力全面提升。通过MoE架构优化,用1/7参数量就超过了稠密模型性能。 多模态能力上,视觉能力支持动态分辨率、可处理百万级分辨率图片,在多个基准测试中表现优异;语音方面创新提出Speech2Speech端到端框架,实现语音和文本模态深度融合,提升语音对话的理解力和表现力。 同时还通过RL方法大幅提升模型推理能力,阶段性进展Doubao-1.5-Pro-AS1-Preview在AIME上已经超过o1-preview、o1等推理模型。 更强大的底层模型无疑为AI原生应用提供了更坚实底座。 [AI时代不看独角兽,看10亿Tokens日均消耗] 聚焦到企业侧,切实的增长发生的更早。Agent开发平台成为云厂商增长最快的企服产品之一。 比如火山引擎推出的HiAgent,上线7个月已经签下100+客户。 它的定位是企业专属的AI应用创新平台,目的是帮助企业能够用零代码或低代码的方式走完从模型到应用的“最后十公里”。 HiAgent可以向下兼容多种模型,原生整合豆包大模型的同时还兼容第三方的闭源或开源模型,并通过提示词工程、知识库、插件、工作流编排四要素来辅助轻松构建智能体,预置丰富的模板和插件,并给予自定义的自由空间。 目前HiAgent已经为中国飞鹤、美宜佳、华泰证券等500强企业提供服务,落地场景200+,打造Agent 500+款。 扣子AI原生应用开发服务平台也助力苏泊尔、招商银行、和府捞面、中和农信等打造企业级Agent开发上线。 相较于HiAgent,它面向AI应用开发人员不足、服务稳定性要求高的企业,降低大模型应用开发门槛。扣子作为AI应用开发平台,提供链接插件、工作流、图像流、知识库、数据库等一系列工具,同样无缝衔接豆包大模型家族以及企业精调模型与开源模型,为企业用户提供丰富应用模板,以及调测、发布、集成、观测的全周期服务。比如使用新闻插件,就能快速打造上线一个播报最新时事新闻的AI播音员。 透过这些实际落地进展不难发现,当AI应用/Agent开发门槛大幅降低,各行各业进入到了规模化探索开发阶段,头部企业的脚步更快,更早利用大模型变革自身业务,也更先解锁大模型红利。 随着行业先锋案例陆续出现,未来AI应用落地规模还会更进一步铺开。与此同时,如HiAgent这类平台也会不断进化,其能力将不局限于智能体开发,而是更进一步发展成为AI能力中台。 [AI时代不看独角兽,看10亿Tokens日均消耗] 再来看供给方面,2024年云计算领域最显化的现象是“价格战”。在这背后其实是算力成本还在进一步优化,云厂商可以继续“以价换量”,推动AI应用落地趋势。 行业公认,未来的计算范式应该以GPU为核心。 2024年,云厂商纷纷持续加强AI Infra能力,以应对正在爆发的大规模推理需求。 比如火山引擎推出了AI云原生方案。它支持大规模GPU集群弹性调度管理、计算产品和网络优化都专为AI推理设计。在过去一年多的大模型应用落地战中,火山引擎为美图秀秀、沐瞳科技、深势科技等提供了坚实的计算底座。 前不久,火山引擎Force冬季大会上还进一步升级了以GPU为中心的AI Infra分布式业务系统,通过vRDMA网络支持大规模并行计算及P/D分离推理架构,提升训练和推理效率,降低企业使用成本;EIC弹性极速缓存解决方案,实现GPU直连,使大模型推理时延降低至五十分之一,成本降低20%。 在技术门槛/模型价格不断降低、算力成本不断优化各种趋势交织下,日均百万亿Tokens的消耗不是随便说说,而是几乎触手可及的现实。 由此,单个企业日均10亿Tokens消耗成为一条非常有价值的参考线。 第一,它代表大模型应用落地新趋势,企业拥抱大模型红利,要朝着这一数字前进; 第二,它成为大模型应用落地新阶段的门槛,AI业务真正跑通了吗?需求真实存在吗?都可以此为参考系找回答。 第三,日均10亿Tokens消耗也只是大模型落地“入门级水准”,单客户百万亿、千万亿Tokens消耗是更值得期待的星辰大海。 只是随着这一新价值基准形成,谁能成为大模型落地的“独角兽”,能更清晰判断了。 (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM
1、国产大模型再突破!DeepSeek R1开源,性能接近OpenAI,开启AI平权新时代 [image.png] 2、月之暗面发布新一代SOTA模型 k1.5:多模态推理能力提升 月之暗面公司推出的k1.5多模态思考模型,标志着多模态推理和通用推理领域的重大突破。该模型具备卓越的多模态处理能力,能够同时处理文本、图像和声音等信息,提升了对复杂任务的理解和应对能力。k1.5的强大通用推理能力使其在编程、数学问题求解等多种应用场景中表现出色。[微信截图_20250121082016.png] 3、免费试用!智谱推出 AI 生视频产品清影2.0已在智谱清言全量上线 北京智谱华章科技有限公司推出了AI生视频产品清影2.0,经过全面升级,显著提升了模型能力和视频生成质量。新版本能够生成自然流畅的动作和精美画面,用户只需简单提示即可实现复杂场景。同时,清影2.0在艺术风格上也有了突破,支持多种风格的视频生成。 [微信截图_20250121103843.png] 4、豆包App推出新语音模式,抢先GPT-4o实现唱歌和角色扮演 豆包 App 最新发布的“端到端”语音大模型在实时语音通话功能上进行了重要更新,标志着其在语音交互领域的重大突破。新模型整合了语音识别、理解和生成能力,具备人类般的表达和情感输出,提升了对话的智能水平。新的人格模式增加了互动的趣味性,使得豆包在情感陪伴和心理咨询等领域的应用场景更为广泛。 [image.png] 5、OpenAI 即将推出能控制电脑的 AI 工具 “Operator” OpenAI 正在研发一款名为 “Operator” 的 AI 工具,预计将在2025年1月发布。该工具能够自主控制个人电脑,执行包括编写代码和预定旅行在内的多项任务。尽管在某些安全评估中表现良好,但其在执行任务的成功率上仍低于人类,专家对其潜在安全隐患表示担忧。市场分析预计,AI 代理市场将在未来几年内迅速增长。 [image.png] 6、支持中文字体!美图WHEE「AI海报」功能即将上线 美图公司近日宣布即将推出WHEE应用的「AI海报」功能,旨在通过人工智能技术简化海报制作流程。用户只需输入一句话,即可生成多种风格的海报,特别支持中文字体,满足个性化需求。此外,该功能提供强大的自定义排版能力,涵盖多个核心场景,帮助用户高效设计。 [image.png] 7、百度文库AI功能月活跃用户突破9000万,付费用户超4000万 在近日的百度AI开放日活动中,百度副总裁王颖分享了百度文库在AI技术应用方面的显著进展。平台的月活跃用户已超过9000万,付费用户数突破4000万,显示出AI功能的强大吸引力。过去一年,百度文库新增了100多项AI功能,涵盖智能PPT、全网搜等创新工具,极大地提升了用户的文档处理和学习体验。 8、世界首个聊天机器人 ELIZA 复活,源自60年前的代码 最近,一个来自美国和英国的研究团队成功复活了历史上第一个电子聊天机器人 ELIZA 的代码。这段代码最初由麻省理工学院教授约瑟夫・韦岑鲍姆在1960年代编写。研究人员在发现原始代码后,经过技术调整,使其重新运行,尽管存在一些问题,如输入数字时程序崩溃。[image.png] 9、中国科研团队重磅发布VideoChat-Flash 长视频处理速度提升100倍 中国科研团队推出了VideoChat-Flash系统,利用层次化视频标记压缩技术HiCo,显著提升了长视频处理的效率。该技术通过减少冗余信息,降低了计算需求,同时增强了模型的理解能力。实验结果显示,该系统在多个基准测试中表现优异,成为长视频处理领域的先进模型。 [image.png] 10、告别传统爬虫!Firecrawl Extract无需编写代码,轻松抓取任何网站的数据 Firecrawl Extract的推出标志着网络爬虫时代的逐渐落幕。借助其自然语言处理和强大功能,用户无需再为编写爬虫脚本而烦恼,而是可以专注于数据分析与应用,显著提高工作效率。这一创新的工具使得数据抓取变得更加智能、简便,推动了数据采集技术的进一步发展。 11、2024年出货的笔记本电脑中,超25%具备生成式AI功能 Counterpoint的最新市场研究报告显示,2024年全球PC市场将显著增长,预计出货量达到2.53亿台,较2023年增长2.6%。这主要受Windows10支持结束和新一代AI笔记本电脑推出的推动。预计2024年第四季度出货量同比增长3.7%,企业IT系统升级需求增加,AI笔记本电脑将改变用户体验,推动市场发展。 [image.png] 12. 腾讯混元 3D AI 引擎上线:轻松生成高质量 3D 模型 腾讯推出混元 3D AI 创作引擎,通过简单提示词或图片快速生成高质量 3D 模型。该引擎集成了多种工具和素材库,支持多种 3D 文件格式,极大提高设计效率。混元 3D-2.0 模型在几何结构和纹理色彩方面有显著提升,适用于多个行业应用。 (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧