Vol.95|又是阿里!天猫率先为商家配备全链路AI工具

得体男孩

天猫率先给商家配备“AI设计助手”,可一键生成媲美实拍的场景图! 3月20日,在上海AWE2025展上,天猫推出的电商行业首款AI 设计工具“家作”全新升级。商家上传商品图,即可一键生成多种风格的场景图,并且可以选择模特做展示,自定义出图,效果如同专业级棚拍实感。据悉,家作是专注服务家装、家居、家电行业商家的AI设计工具。 家作AI棚拍功能,不仅可以根据产品类型,一键生成80多种风格的场景图,还升级支持商 家上传参考图或输入文字描述,自主创意设计。新增的AI模特功能,可模拟真人展示实拍效果,支持自定义输入。如AI模特躺在枕头上,甚至会出现头部和枕头承压的褶皱感,效果媲美实拍。 “家作能解放设计师一部分基础性工作,聚焦在产品的创意设计上,同时也能简化我们的工作流。”慕思品牌相关负责人介绍,近一年,我们积极探索,通过家作AI采纳的场景图有近2000张,其中带模特的有900多张,相比用传统模式,省了140多万元的设计成本。 目前,“家作”上线运营一年,有超13万商家使用,包含源氏木语、慕思、全友、帕莎曼、芝华仕、洁丽雅、雷士、苏泊尔等头部品牌。 “我们希望通过AI技术来帮助商家提升经营效率。”天猫家作产品经理鱼乘介绍,通过深度自研垂直行业大模型,结合行业对商家工作流的洞察,让传统模式下的搭景、找模特、实拍等2-3天的时长,能缩短到几分钟完成,并保证视觉真实感。 为帮助商家提高运营效率,降低成本,除了AI设计工具“家作”外,淘宝天猫还在直播、营销、服务等方面为家电家居商家提供全链路的AI经营工具。 直播方面,3D换景直播,一张绿幕,即可打造虚拟直播场景;淘宝官方直播数字人,可为商家定制数字人提供24小时不间断直播。 营销方面,AI小万则为商家提供个性化的诊断咨询、广告智能投放,节省商家人为操作时长。万相营造图生视频,一张图即可生成一段视频,商家可低成本制作视频,提高商品内容化。 服务方面, AI智能客服店小蜜通过大模型精准问答,降低商家客服服务成本。而生意管家,作为支持商家全链路运营的平台,集素材生成、数据服务和经营代理等功能,商家每日节省约30%的时间,显著提升生产力。 此次,AWE2025展上,天猫不仅发布最新的AI产品,同时,携手海尔、小天鹅、科沃斯、石头、宇树科技、强脑科技等家电科技品牌,展出AI冰箱、AI洗烘套装、机械臂扫地机器人、仿生机器狗Go2等众多重磅科技新品,同步天猫线上首发。 此外,淘宝Vision联合天猫家享生活打造的虚拟家居体验舱,带来引领未来的AI购物体验。同时,还首次对外展示了极有家拍立搭产品,通过AI图像识别和大数据,生成与家装场景图中一致或相似的货品搭配清单,并支持一键加入购物车或放我家预览真实场景搭配效果,显著提升家场景消费决策效率。 (资料来自网络并整理) —————————————————————————————— 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒)

3分钟
41
7个月前

Vol.94|16:10!让人惊讶的华为新品手机来了,同时鸿蒙AI也要来了

得体男孩

余承东刚刚揭秘了华为“想不到的新产品”—— 16:10“阔形屏”折叠手机Pura X! 与此同时,鸿蒙AI功能也正式首发。 基于华为自研盘古大模型和DeepSeek双模型架构,包括小艺助手在内的一众AI功能焕然一新。 AI系统,鸿蒙换道超车的关键 AI将各大操作系统的竞争又拉回到了同一起跑线上,作为后起之秀的原生鸿蒙,AI无疑是实现换道超车的最佳机遇。 当全球操作系统迈入“系统级AI”深水区,传统架构的技术债也开始显现。 iOS在AI上总是一个“拖”字决,时不时挤出一些牙膏,每次算法迭代都像在古董架上添新瓷;安卓阵营的碎片化顽疾,让OEM厂商的AI创新困在谷歌划定的沙盒里。 但华为不仅在态度上积极拥抱AI,手中还拥有从底层起全面自研的鸿蒙操作系统,为AI功能的部署带来了更多的便利。 天时地利人和之下,AI将助力原生鸿蒙成为移动操作系统的又一个新鲜力量。 AI之外,鸿蒙的另一大优势就是覆盖了手机、平板、手表、汽车等各种不同的硬件形态,能够实现其中的无缝交互。 本次发布会上余承东预告,基于鸿蒙操作系统的PC电脑也将于5月上线,将补齐鸿蒙生态中最后一块硬件形态短板。 你,准备换装备了嘛? (资料来自网络并整理) ——————————————————————————————— 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒)

2分钟
42
7个月前

Vol.93|天呐?!通用具身智能机器人已经可以进厂造芯片了!

得体男孩

在全球半导体产业竞争日益激烈的背景下,半导体生产在部分高度依赖人力的生产环节,传统的智能化生产模式仍暴露出效率瓶颈与污染问题。人工操作易导致污染,且效率不高、污染控制难度大。如今,随着通用智能机器人的应用,这一难题正迎来全新解决方案。 3月18日,国内领先的具身智能机器人公司智平方与全球知名科技创新企业吉利科技集团旗下浙江晶能微电子有限公司正式签署战略合作协议。双方将基于智平方自研的端到端具身大模型Alpha Brain和通用智能机器人Alpha Bot(爱宝),共同打造面向半导体高品质制造工厂的通用具身智能机器人解决方案。这是全球首次通用具身智能机器人在先进半导体工厂进行部署应用。 [通用具身智能机器人首次进厂造芯!] 此次合作为智平方机器人开辟了工业制造领域的新细分赛道,在合作的第一阶段,晶能的杭州基地”晶益半导”将率先部署智平方研发的通用具身智能机器人Alpha Bot。该系统依托智平方自主研发的端到端具身大模型Alpha Brain,通过持续学习半导体生产场景的多维数据,逐步实现晶圆装载、耗材智能更换、精密零件分拣等高精度工艺环节的自动化操作。该项目将分阶段推进产线智能化升级,旨在通过具身智能技术提升生产效率、释放生产力潜能,最终打造以具身通用机器人全线赋能的新一代智能工厂。 [通用具身智能机器人首次进厂造芯!] 此次合作为智平方机器人开辟了工业制造领域的新细分赛道,在合作的第一阶段,晶能的杭州基地”晶益半导”将率先部署智平方研发的通用具身智能机器人Alpha Bot。该系统依托智平方自主研发的端到端具身大模型Alpha Brain,通过持续学习半导体生产场景的多维数据,逐步实现晶圆装载、耗材智能更换、精密零件分拣等高精度工艺环节的自动化操作。该项目将分阶段推进产线智能化升级,旨在通过具身智能技术提升生产效率、释放生产力潜能,最终打造以具身通用机器人全线赋能的新一代智能工厂。

3分钟
30
7个月前

Vol.91|智能「电子舌头」来了,或许真的可以「品尝」电影里的蛋糕?

得体男孩

e-Taste 让远程玩家沉浸在虚拟美食体验中 人机界面 (HMI) 因其在虚拟现实 (VR) 和增强现实 (AR) 中的潜在应用而备受关注。通过将交互式虚拟环境与现实世界融合,这些系统集成了信号输入和驱动以增强用户体验。 然而在这一领域,现有的味觉界面远远落后于基于视觉和听觉的 VR/AR 界面。有必要建立一个能够实现精确和数字控制的味觉的框架。 这个被称为「e-Taste」的界面改变了这一现状,它是由美国俄亥俄州立大学、大连理工大学的合作团队开发的味觉感知系统。e-Taste 使用传感器和无线化学分配器的组合来实现远程味觉感知。 这些传感器可以识别葡萄糖和谷氨酸等分子——这些化学物质代表甜、酸、咸、苦和鲜五种基本味道。一旦通过电信号捕获,这些数据就会通过无线方式传送到远程设备进行复制。 该研究以「A sensor-actuator–coupled gustatory interface chemically connecting virtual and real environments for remote tasting」为题,于 2025 年 2 月 28 日发布在《Science Advance》。 [图片] 「在目前的 VR 和 AR 领域,化学维度相对较少,尤其是当我们谈论嗅觉和味觉时。」这项研究的合著者、俄亥俄州立大学材料科学与工程系助理教授 Jinghua Li 说,「这是一个需要填补的空白,我们使用新系统开发。」 [图片] 图示:e-Taste 系统概述,包括工作原理、数据传输方案和关键功能单元。(来源:论文) 具体来说,它通过物联网 (IoT) 策略以化学方式连接物理上相距遥远的空间,并实现远程品尝。通过结合材料、设备、软件和硬件,该系统提供了一个统一的化学平台,能够促进数字管道连接物理上相距遥远的现实空间中的人类。主要组件是一个定量、局部、可定制且易于控制的液体输送系统,使用电磁 (EM) 驱动。 TA 的味觉界面灵活设计可以更好地与人体融合,与传统笨重的替代品相比,安装起来毫不费力。当用户从事复杂的任务(例如下一代 VR/AR 应用或生物医学研究)时,这尤其有利。 与现有的味觉界面相比,这一味觉界面解决了非侵入式实施、空间定位能力、混合功能和传感器-执行器耦合方面的局限性。操作传感器-执行器耦合系统的关键步骤和原理主要包括味觉信息捕获和编码、波形控制的信号解码、味觉物质从水凝胶中扩散以调节浓度,以及根据 Stevens 幂律产生味觉以引起用户感知。 通过数据处理模块耦合,关键演示器「e-Taste」包含两个关键功能组件:(i)捕获目标系统中的味道化学物质的传感平台,为远程控制和指令提供信息;(ii)通过微流体接口输送可食用味道化学物质的 EM 驱动系统。 驱动组件专注于一类基于水凝胶的电响应界面,用于数字控制化学释放。该团队使用以下化学物质来代表五种基本味道:葡萄糖,甜味;柠檬酸,酸味;氯化钠,咸味;氯化镁,苦味;谷氨酸,鲜味。系统研究建立了设计原则并确定了传感、通信、驱动和交付方面的性能。 现场测试评估了人类受试者在数字食品共享和沉浸式游戏等实际应用中如何感知和参与由电子味觉促成的远程品尝体验。研究人员表示,通过加入更多其他味觉化学物质和传感/驱动模式,可以进一步推广这一概念和设备模型的应用场景。 结合传感功能,e-Taste 可以进一步促进与远距离领域的互动。在食品行业,e-Taste 可以实现经济高效的远程品尝,以改进食品和饮料配方。虚拟通信功能将促进全球合作和反馈。 根据此处报告的初步原型,直接的机会在于部署完全生物整合的味觉显示器,开展用户研究从而评估个人体验和社会接受度,以及结合其他操作模式来完成风味格式。 [图片] 图示:对 e-Taste 的人类感知维度进行评估的现场测试结果。(来源:论文) 除了关注食品中的化学信号外,传感器和执行器之间用于信号编码、存储、传输和解码的数字耦合还扩展到其他场景,例如国防中的化学信息传递和医疗领域的药物管理。这些基础研究成果共同为开发新产品提供了沃土,使人类和其他生命系统能够在数字时代通过化学信号与世界互动。 Li 表示,这些结果为开拓新的 VR 体验提供了机会。同时,由于该系统具有空间定位能力,因此它有可能研究舌头的不同区域对同一溶液的反应,以及溶液强度和成分的变化如何影响人类感知。这些发现将有助于科学家更深入地了解大脑如何处理来自口腔的感觉信号。 接下来,研究人员的工作重点将是进一步缩小系统体积、提高系统与食物中产生味觉的不同化学化合物的兼容性。除了有助于打造更好、更具活力的游戏体验外,研究人员还指出,这项研究将有助于促进残障人士(如脑外伤患者、味觉丧失患者)在虚拟空间中的可访问性和包容性,也让味觉丧失问题引起了主流关注。 「这将帮助人们以前所未有的方式在虚拟空间中建立联系。」Li 说,「这个概念已经存在,这是成为虚拟宇宙一小部分的良好第一步。」 未来,谁不想在「元宇宙」线上聚会时尝尝网友家的蛋糕呢? [图片] 论文链接:www.science.org (资料来自网络并整理) ——————————————————————————————— 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒)

2分钟
25
7个月前

Vol.90|百度连发两款模型!脑经急转弯,学会听歌、看电影,文心有了新功能

得体男孩

百度一口气官宣了两款大模型,分别是文心大模型 X1 和文心大模型 4.5。 那么,这两款大模型有啥区别呢? * 文心 X1:会脑筋急转弯,还能调动多个工具 文心 X1 是一款深度思考模型,具备更强的理解、规划、反思、进化能力,并支持多模态,尤其是多工具调用,更是它的一大特色。 * 文心 4.5:学会了听歌、看电影 文心 4.5 号称新一代原生多模态基础大模型,最擅长的就是多模态理解,语言能力也更精进。 相比于之前版本,文心 4.5 不仅在理解、生成、逻辑、记忆能力方面上了一个台阶,还在去幻觉、逻辑推理、代码能力上有了全面提升。 目前,这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线。(体验网址:yiyan.baidu.com) 最关键的是,它们全都免费! [image.png] 要知道,前段时间百度还对外宣布,文心一言将从 2025 年 4 月 1 日 0 时起开始全面免费。 没想到,这次百度直接将这个时间点提前了整整半个月。 同时,这两款模型的 API 价格也已出炉。 开发者现可在百度智能云千帆大模型平台上直接调用文心大模型 4.5 API,输入价格低至 0.004 元 / 千 tokens,输出价格低至 0.016 元 / 千 tokens;文心大模型 X1 也即将在千帆平台上线,输入价格低至 0.002 元 / 千 tokens,输出价格低至 0.008 元 / 千 tokens。 有兴趣的赶紧试试吧 —————————————————————————————— 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒)

4分钟
30
7个月前

Vol.89|量产3.99w起售!国产人形机器人破全球纪录,机器人赛道加速中

得体男孩

N2及其升级版机器人,目前已经全面开放预售,售价3.99万起——3万块也是马斯克造机器人追求的目标价格,但硅谷钢铁侠的单位是“美金”。 而现在,生于中国造于中国的机器人N2,虽然还不能夸张地说“人人买得起”,但确实帮家人们把机器人价格打下来了。 中国AI智能,中国硬件制造,中国供应链生态,正在小荷才露尖尖角。 而这一切——如此高灵巧度且价格亲民的机器人背后,还是一家成立仅一年多的清华系创业公司——NOETIX Robotics松延动力。 率先解锁「连续空翻」的机器人N2,其最大亮点自然就是具备高动态运动能力。 据官方介绍,该机器人全身有18个自由度,其中单腿各有5个自由度,单臂各有4个自由度。这使其能够像人类一样行走、奔跑,甚至完成多数人难以企及的高难度动作。 [国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售] [国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售] 它一个丝滑转身,给人类打招呼。优雅,实在是优雅~ [国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售] 在单脚跳跃方面,N2也表现得十分稳健。 [国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售] 即便受到人类的干扰,它依然能够不受影响地继续前行,展现出极强的抗干扰能力。 [国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售] 而且即便摔倒,它也能迅速恢复正常运行,哪怕经历几十次摔倒也不影响其功能。 [国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售] 与其他机器人仍停留在视频/Demo演示不同,N2已经率先将量产提上了日程。 3.99万起售,标配二次开发接口,并提供深空灰、皓月白、流光紫三种颜色供选择。 机身集成了多个外置硬件接口,方便开发者根据自身需求和应用场景来进行二次开发—— 比如用于科研、安防巡检、训练陪跑等领域,又或者思路打开,在年会等活动中组织一起表演,未来或许还能拥有登上春晚舞台的高光时刻。 (资料来源于网络并整理) —————————————————————————————— 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒)

4分钟
32
7个月前

Vol.88|高阶智驾产品只要13万?标配激光雷达,还能「车位到车位」

得体男孩

高阶智驾的“破壁人”,来了。 激光雷达、200TOPS+算力、端到端智驾模型、全场景无图NOA…全部标配—— 这是激光雷达、高阶智驾车型“史低”售价:12.98万,来自零跑最新紧凑级SUVB10: ______________________________________________________________ 2025年智驾普及浪潮,出现“高价高体验”与“低价规模化”两个看似永不交汇的平行宇宙,但零跑撕开了“时空裂缝”: 全链自研,把“AI老司机”塞进每台买菜车的驾驶座。 零跑端到端交卷 在和量子位面对面交流中,零跑创始人、董事长、CEO朱江明明确了零跑智驾策略: 不做中阶,只有入门和高阶两套方案和技术,全部标配。 入门(基础L2功能)是照顾预算的确有限的用户,而高阶方案零跑的态度是“一步到位”,直接从城区NOA起步标配,后续免费OTA车位到车位能力。 NOA全称是智能领航辅助驾驶,意思是只要导航信息,系统就能自己开。“城区”NOA前提下,包括识别红绿灯、主动避让绕行、自主过环岛等等,系统完全可以全场景覆盖。 端到端技术的应用,让城区NOA具备了成本千元级规模普及的条件,也成为今年智驾标配浪潮下各个玩家竞赛争夺的焦点。 所谓“端到端”,简单理解就是把驾驶全过程模型化、AI化,直接用人类成熟司机的驾驶数据去训练,理论上可以处理几乎所有复杂场景。而以往人工定义规则的系统靠“穷举法”,几乎无法应对庞大却复杂的博弈或异形障碍物。 体现在零跑B10上就是智驾体验更加“拟人”: _ 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒)

4分钟
36
7个月前

Vol.87|AI“音效”上线!,一键生成大片感音效!已上线即梦

得体男孩

在 AIGC 持续突破视频生成边界的当下,音效制作仍是制约行业发展的瓶颈。字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。 [图片] App 端 [图片] Web 端 效果展示 先「听」为快,这里展示了一些 SeedFoley 生成的视频音效效果。 技术方案 SeedFoley 是一种端到端的视频音效生成架构,通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。首先,用固定的视频帧率对视频序列进行抽帧提取,然后使用一个视频编码器提取视频的表征信息,并通过多层线形变换将视频表征投射到条件空间,在改进的扩散模型框架中构建音效生成路径。 在训练过程,提取语音和音乐相关标签,作为 multi conditions 的形式输入,可以将音效和非音效进行解耦。SeedFoley 能支持可变长度的视频输入,并且在音效准确性,音效同步性和音效匹配度等指标上都取得了领先水平。 [图片] 图 1:SeedFoley 的模型架构 视频编码器 SeedFoley 的视频编码器,采用了快慢特征组合的方式,在高帧率上提取帧间的局部运动信息,在低帧率上提取视频的语义信息。通过将快慢特征组合,既保留了运动特征,有效降低计算成本。通过这种方式,能在低计算资源性实现 8fps 的帧级别视频特征提取,实现精细动作定位。最后利用 Transformer 结构融合快慢特征,实现视频的时空特征提取。在提升训练效果和训练效率上,SeedFoley 通过在一个批次中引入多个困难样本,显著提升了语义对齐效果,同时使用了 sigmoid loss 而非 softmax loss,能在更低的资源上实现媲美大批次训练的效果。 [图片] 图 2:SeedFoley 的视频编码器 音频表征模型 对于扩散模型而言,通常采用 VAE 生成的潜在表征(latent representation)作为音频特征编码。与基于梅尔频谱(mel-spectrum)的 VAE 模型不同,SeedFoley 采用原始波形(raw waveform)作为输入,经过编码后得到 1D 的表征,比传统 mel-VAE 模型在重构和生成建模上更有优势。这里,音频采用了 32k 的采样率,以确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征,可以有效提升音频在时序上的分辨率,提升音效的细腻程度。 SeedFoley 的音频表征模型采用了两阶段联合训练策略:在第一阶段使用掩码策略,将音频表征中的相位信息进行剥离,将去相位后的潜在表征作为扩散模型的优化目标;在第二阶段则使用音频解码器从去相位表征中重建相位信息。这个做法可以有效降低扩散模型对表征的预测难度,最终实现音频潜在表征的高质量生成和还原。 扩散模型 SeedFoley 采用 Diffusion Transformer 框架,通过优化概率路径上的连续映射关系,实现了从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley 通过构建连续变换路径,有效减少推理步数,降低推理成本。 在训练阶段,将视频特征与音频语义标签分别编码为隐空间向量;通过通道维度拼接(Channel-wise Concatenation)将二者与时间编码(Time Embedding)及噪声信号进行混合,形成联合条件输入。该设计通过显式建模跨模态时序相关性,有效提升了音效和视频画面在时序上的一致性以及内容的理解能力。 在推理阶段,通过调整 CFG 系数可调整视觉信息的控制强度以及生成质量之间的关系。通过迭代式优化噪声分布,将噪声逐步转换为目标数据分布。通过将人声以及音乐标签进行强行设定,可以有效避免音效中夹杂人声或者背景音乐的可能性,提升音效的清晰度和质感。最后将音频表征输入到音频解码中,得到音效音频。 结语 SeedFoley 实现了视频内容与音频生成的深度融合,能够精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景。无论是节奏感强烈的音乐瞬间,还是电影中的紧张情节,都能精准卡点,营造出身临其境的逼真体验;另外,SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。 「AI 音效」功能已上线即梦,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。在 AI 视频,生活 Vlog、短片制作和游戏制作等高频场景中,能有效摆脱 AI 视频的「无声尴尬」,便捷地制作出配有专业音效的高质量视频。 (资料源于网络并整理) ——————————————————————————————— 过去几年里,关于 AI 发展下一个周期会是什么,人们有很多猜测:Agent(智能体)?Reasoner(推理器)?真正的多模态? 原文链接:vintagedata.org 我认为是时候下定论了:模型即产品。当前研究和市场发展的所有因素都指向这个方向。 * 通用模型的 scaling 正在停滞。这正是 GPT-4.5 发布背后传达的信息:能力在线性增长,而计算成本却呈几何曲线增长。即使过去两年训练和基础设施效率的提升不小,OpenAI 也无法部署这个巨型模型 —— 至少定价远远不是用户能承受的。 * 某些已有方法的训练效果远超预期。强化学习和推理的结合意味着模型突然开始学习任务。这不是机器学习,也不是基础模型,而是一种秘密的第三种东西。甚至是小模型的数学能力也突然变得好得吓人。这让编程模型不再仅仅生成代码,而是自己管理整个代码库。这能让 Claude 在上下文信息很少且没有专门训练的情况下玩《宝可梦》游戏。 * 推理成本急剧下降。DeepSeek 最近的优化意味着所有可用的 GPU 加起来可以支撑全球用户每天让前沿模型输出 10k token。我们现在还远没有这么大的需求。对模型提供商来说,卖 token 赚钱的思路不再有效了:他们必须向价值链的更高处移动。 这也是一个令人不安的方向。所有投资者都在押注应用层。在 AI 进化的下一阶段,应用层可能是最先被自动化和颠覆的。 未来模型的形态 如果模型即产品,单打独斗的开发方式将不再可行。搜索和代码领域是容易摘取的果实:作为过去两年的主要应用场景,市场已接近成熟,你可以在几个月内推出新的 cursor 产品。然而,未来许多最具盈利潜力的 AI 应用场景尚未发展到这一阶段 —— 想想那些仍然主导全球经济大部分的基于规则的系统。拥有跨领域专业知识和高度专注的小型团队可能最适合解决这些问题 —— 最终在完成基础工作后成为潜在的收购对象。我们可能会在 UI 领域看到类似的发展路径:一些优先合作伙伴获得闭源专业模型的独家 API 访问权,前提是他们为未来的业务收购做好准备。 至今我还没有提及 DeepSeek 或中国的实验室。原因很简单,DeepSeek 已经更进一步:它不仅是作为产品的模型,而是作为通用基础设施层。与 OpenAI 和 Anthropic 一样,梁文锋公开了他的计划: 我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期 (...)如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。 在这个阶段,仅专注于应用开发就像是「用上一场战争的将军打下一场战争」。恐怕许多人甚至还没意识到,上一场战争已经结束了。 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒) 编辑单集 2.3 03:54 ‧ 2025-03-09 单集封面 点击上传封面 或打开资源库 关联追光任务 选择任务

3分钟
27
7个月前

Vol.86|英伟达携手国际组织用AI助力野生动物保护

得体男孩

不久前,世界野生动植物之日方才过去。在如今世界各地对于野生环境的保护日益重视的发展现状中,利用 AI 来协助人们进行自然环境保护的举措理所当然地成为了更具影响的手段。 在联合国估计超过 100 万个物种面临灭绝威胁之际,这是一项维持生态系统和支持生物多样性的关键工作。 Ai2 的 EarthRanger 总部位于西雅图的非营利性 AI 研究机构 Ai2 提供 EarthRanger,这是一个软件平台,可帮助保护区管理人员、生态学家和野生动物生物学家实时做出更明智的野生动物保护运营决策,无论是防止偷猎、发现生病或受伤的动物,还是研究动物行为。 Ai2 与 EarthRanger 合作的工作之一是计划开发一个机器学习模型,该模型使用云端的 NVIDIA Hopper GPU 进行训练,该模型可以预测大象在靠近人类与野生动物边界的区域的活动,大象可能会在这些区域袭击农作物并可能促使人类进行报复。 通过访问世界上最大的大象移动数据存储库(由共享数据的 EarthRanger 用户实现),AI 模型可以帮助预测大象的行为,然后提醒区域管理人员安全地引导大象远离可能对它们或附近人员出现的危险情况。区域管理人员或护林员通常使用直升机、其他车辆等举措来安全地改变大象的路线。 [图片] 图示:一头名叫雨果的大象戴着一个监控设备。(图源:网络) 除了大象之外,EarthRanger 还收集、集成和显示大量野生动物的数据,这些数据来自 100 多个数据源,包括相机陷阱、声学传感器、卫星、无线电等。然后,该平台将数据与现场报告相结合,以提供保护区内有项圈野生动物、护林员、执法资产和基础设施的统一视图。 [图片] 图示:EarthRanger 平台界面。(图源:网络) Rouxcel Technology 南非初创公司 Rouxcel Technology 基于 AI 的 RhinoWatches 利用 EarthRanger,了解濒临灭绝的黑白犀牛的行为,然后实时提醒当局检测到任何异常情况。这些异常可能包括偏离典型的栖息地、与其他动物的领土争夺以及其他可能危及生命的情况。 总部位于开普敦的 Rouxcel 已在 40 多个南非保护区部署了 1200 多只 RhinoWatch,这些手表使用 NVIDIA 加速计算进行训练和优化。这家初创公司使用 Ai2 EarthRanger 平台保护了超过 120 万英亩的犀牛栖息地,最近还扩大了规模,帮助肯尼亚和纳米比亚的保护工作。 [图片] 图示:一头白犀牛佩戴着 Rouxcel RhinoWatch。(图源:网络) OroraTech OroraTech 是 NVIDIA 初创加速计划的成员,它使用 EarthRanger 平台以不同的方式保护野生动物,提供野火检测和监控服务,将卫星图像和 AI 融合在一起,以此保护环境并防止偷猎。 OroraTech 结合来自卫星、地面相机、航空观测和当地天气信息的数据,检测对自然栖息地的威胁并实时提醒用户。该公司的技术监测着超过 3000 万公顷的土地,这些土地直接影响了非洲和澳大利亚的野生动物。这个范围几乎能与大堡礁相提并论。 基于 AI 的火灾探测管道使用 NVIDIA cuDNN 深度神经网络基元库和 NVIDIA TensorRT 软件开发套件进行太空中的热异常检测和云遮罩,从而实现高精度火灾探测。 野生动物保护解决方案帮助保护濒危物种 国际非营利组织 Wildlife Protection Solutions (WPS) 为 50 多个国家/地区的 250 多个保护项目提供支持。其远程摄像头(全球部署了约 3,000 个)使用 AI 模型对动物和偷猎者进行实时监控,提醒护林员在野生动物受到伤害之前进行调解。 WPS 也利用 EarthRanger 平台,利用 NVIDIA 加速计算来优化其 AI 模型的训练和推理,这些模型每天处理和分析 65000 张照片。 未来将会举办的全球 AI 大会上,NVIDIA 公司将会详细阐述他们使用的技术如何支持保护和环境计划。该大会将于 3 月 17 日至 3月 21 日举办,位于美国加州圣何塞。 相关报导:blogs.nvidia.com (资料来自网路并整理) ——————————————————————————————— 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒)

3分钟
37
7个月前

Vol.84|机器人告别「看得懂做不来」,首个通用具身基座模型—GO-1揭晓!

得体男孩

智元机器人的「好东西」揭晓了,还是双重惊喜:Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。 机器人训练,数据方面总是难以攻克。一方面是认知维度的数据:互联网上海量的文本和图片数据,帮助机器人建立基础认知,理解世界是什么样的。 另一方面是动作维度的数据,主要来源有人类的操作视频、跨本体示范视频、在虚拟场景中练习的仿真数据,还有机器人在实际环境中实操得来的真机示教数据。 [图片] 智元机器人将机器人的训练数据划分为四个层次 然而现有的 VLA(Vision-Language-Action)架构,主要依赖真机和合成数据。 我们每天刷的短视频有很多可供机器人学习的操作,但不能直接用,需要「翻译」成机器人能理解的语言。 因此,机器人很难做到看完人类的视频教程,脑子学会了,手学会了,直接上手做好了。 没有充分激活人类 / 跨本体操作视频数据这个宝贵的数据来源,机器人迭代的成本更高,进化的速度也更慢了。 如今,随着 ViLLA 架构与 GO-1 大模型的重磅发布,机器人不仅拥有了海量真实和仿真数据,更具备了快速学习的迁移能力,让机器在拓展了运动能力之外,更加具备了 AI 的能力,作业能力,是让机器具备了真正的价值。 相信机器人将能更好地适应千变万化的现实环境,向着具备通用智能的自主体发展,在商业、工业、家居等多个领域大展身手。 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒)

2分钟
50
8个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧