揭秘科技
透过科技表相,看到商业本质

Album
主播:
老于的商业科技图谱
出版方:
老于带你看懂工作
订阅数:
4,280
集数:
157
最近更新:
2天前
播客简介...
科技不应该只是少数人的专利,每个人都应该能够理解和享受科技带来的好处。在这个快速发展的科技世界中,理解和跟上科技的步伐并不容易,能够穿透表象看到本质更为困难。我的目标是用通俗易懂的语言,将复杂的科技概念和商业话题讲解得明明白白。 主播老于在科技行业工作超过20年,曾在多家头部公司和独角兽企业担任要职。他在大型企业和初创公司皆有着将业务从零到一发展至盈利或全球过亿日活用户的经验。与许多科技从业者不同的是,老于曾直接负责研发、产品管理、销售运营、战略规划、合作伙伴拓展以及业务盈亏,涵盖了现代科技公司的所有方面。 老于对人类历史上规模最大的人工智能产品和用户反馈有着深刻了解,这使他在这一领域具备独特的洞察力。工作之外,老于热衷于心理学,并通过这一爱好获得了对人类行为和思维模式更深入的理解;老于还是一名规律的阿斯汤伽瑜伽练习者,这使得他思维敏锐、内在平静。
揭秘科技的创作者...
揭秘科技的节目...

E158 从像素到扭矩: Helix 02让机器人进入连续动作世界

揭秘科技

2025年2月,Figure AI在官宣放弃使用Open AI的大模型之后,展示了自主研发的机器人大模型 Helix,Helix 这个单一神经网络大模型,可以从像素级输入、输出控制一台人形机器人上半身全部动作。一年之后的2026年2月,Figure发布了下一代的Helix 02大模型,这个模型把控制,扩展到了整个机器人——将行走、操作和保持平衡统一为一个连续系统。 今天这期节目,就来介绍一下Figure的Helix 02大模型都有哪些能力,又是如何实现的;过程中,我会逐一解读一下涉及到的每一个机器人领域里面常见的说法和术语。 01:36 Figure机器人的零巧手还能够拧瓶盖儿,从药盒里取出单粒的药片,精准分配注射器当中的液体。 02:14 远程操控,teleoperation,是机器人行业的一个常见的做法。 02:32 这种做法本来的目的是用来训练机器人模型,让机器人学会跟人类学会去自主的执行相同的任务。 03:03 远程操控的做法,远比大家想象的用遥控器来遥控机器人 造的假,要真的多。 04:01 什么是“像素级输入”? 06:14 Helix02大模型代表了多项的突破,第一个突破就是自主的长时间跨度的运动操作一体化,loco-manipulation。 06:56 第二个突破就是,机器人对外部世界的感知过程,全部通过传感器来输入、然后直接通过执行器来输出。 07:21 第三个突破,就是基于人类数据的,像人类控制自己一样的“机器人全身控制”。 08:00 这里再介绍一下术语“仿真到现实”,"sim to real", 也就是similar to reality的简要说法。 09:57 上面这段解释当中又提到了“虚拟环境”、“模拟环境”,也就是机器人领域当中常说的“物理模拟器”。那什么又是“物理模拟器呢”? 12:02 “物理模拟器”,和物理“世界模型”可不是一回事儿。。 13:16 “灵巧手”又是机器人学领域里的一个专有名词,指的是。。。 14:04 Helix 02大模型,主要解决了人形机器人面临的哪些巨大的挑战呢? 14:16 几十年以来,loco-manipulation,即在运动过程中同时实现对机器人的动作操控,一直是机器人学领域里面最难解决的问题之一。 16:01 Helix 02 到底是如何解决“在运动当中、同时对机器人的动作进行控制”的挑战的? 16:17 相信这个“全身运动VLR模型"很快就会成为今年的热门名词 16:37 对Helix 01的System 1和System 2的细节感兴趣的听友可以去我的第101期节目。 18:34 接下来就详细介绍一下Helix 02当中新引入的这个System 0。 20:41 “跨越超过二十万个并行的环境”,指的是训练时,同时运行超过20万个独立的机器人和模拟环境。 21:00 这相当于让20万个机器人同时在20万个不同的场景当中试错和学习。 21:28 “进行广泛的域随机化”,是指在模拟训练当中故意随机改变各种物理和环境参数,让模型看到无数种变异版本的现实世界。 22:21 “在整个机群当中泛化”,指的是:同一个机器人的模型,不仅适用于单台机器人,还能够适用于整个机器人机群当中的每个机器人。 22:52 它的意义在于极大的降低了未来大规模生产和部署时的成本。 23:07 Helix 02除了引入新的System 0之外,对Helix 01版本当中存在的System 1和System 2的功能也做了扩展。 26:47 Helix 02真正重要的,并不只是机器人,又多会干了几件事儿。 视频 1: 一台 Figure 机器人执行了一项连续 4 分钟 的任务:走到洗碗机前,卸下餐具,在房间内行走移动,将物品放入橱柜中,随后重新装载并启动洗碗机——全程仅依赖机载传感器,无任何人工干预。https://videos.ctfassets.net/qx5k8y1u9drj/1cKhxhvotDvkyJx2rfq2IN/94f100629ab7a0bdb37d5b248f8f5760/Kitchen_Tidy_MP4_Compressed.mp4 灵巧手开瓶盖https://videos.ctfassets.net/qx5k8y1u9drj/21mBdGqjGKhKNDFaj8Km9o/511c689af0765c49efea64a6f1c3b64d/W-WOUT_HAND_SENSING_Bottle_2.mp4 灵巧手从药盒里拿药片https://videos.ctfassets.net/qx5k8y1u9drj/4qmA4zOxRnMFB8I78fCpUE/8b33300fc6e1e0503680bb38d0d256f3/W-WOUT_HAND_SENSING_PILLS.mp4 灵巧手从注射器里释放5毫升液体https://videos.ctfassets.net/qx5k8y1u9drj/4muRTBb9YPxrgBvrgrQjkO/d9b2d16b4ae07d7139ca6adc6143228b/W-WOUT_HAND_SENSING_Syringe.mp4 灵巧手从盒子里拿螺母https://videos.ctfassets.net/qx5k8y1u9drj/5wDQzY6MclJxCm62bKDOqt/8615e8369f182f45c316b139a2b2ce4c/W-WOUT_HAND_SENSING_METAL.mp4

29分钟
99+
2天前

E157 从Manus被收购及审查,看轨迹数据对通用智能的重要

揭秘科技

Manus 和 Meta 分别高调官宣之后,媒体与自媒体也再次条件反射式地把 Manus 推上了“封神”叙事。在去年走红之后,这家公司很快完成了从“国内公司”到“新加坡主体”的身份切换,这很清晰的是在为潜在跨境并购做结构性准备了,按道理应该是综合考量过多方监管因素后的选择。 02:03 为什么双方一定要如此高调的对外官宣呢? 03:07 Meta收购Manus真实看重的是什么呢? 03:22 网上的表面叙事之一,说的是“Meta看中了Manus极强的AI Agent技术",这个叙事显然符合大众的口味。 03:58 网上的表面叙事之二,说的是"Manus 8个月做到了1亿美金的ARR",这个叙事非常符合创业成功学。 04:42 收购Manus,相当于帮Meta打开了一个训练并建立Meta的通用人工智能能力的、现实世界的强化学习环境。 05:32 当前的大模型几乎无法去自主的决定如何行动,因为大模型本身并不理解因果关系,就像一个刷题刷出来的牛娃一样。 06:12 在强化学习的语境当中,价值并不只来自于“做对了什么”,同样来自于“为什么会做错?” 06:53 正是这些不断出现的错误与偏差,以及相应的纠正,才让大模型开始接触真正的因果结构。 08:44 一个能够在真实世界中规模化的“产生 - 行动 - 结果 - 修正”这样的闭环系统,就为下一代具备世界模型、具备因果理解能力的通用人工智能,铺设了现实世界的训练土壤。 09:03 有意思的是,Meta收购Manus,并不是CEO小扎来官宣的,而是Meta收购的数据标注公司的创始人、“年轻高潜”亚历山大王官宣的。

11分钟
99+
3周前

E156 老黄CES说的“物理AI的GPT时刻”跟“世界模型”,到底在说什么?

揭秘科技

美国2026 CES消费电子展上,英伟达CEO黄仁勋正式宣告了 AI 从“数字世界”向“物理世界”跨越,物理AI的ChatGPT时刻已经到来。这些话看起来又是每个字都认识,但和在一起很多人不知道他在说什么、到底在表达什么。这期节目就用朴素的语言,来把老黄的核心内容完整的解释一下。 01:58 没有听说过“世界模型”也没关系;接下来,今年这个词将很快的无处不在。 03:03 除了发布新一代的GPU,老黄还发布了英伟达的自动驾驶推理模型。 03:36 老黄强调,不同于传统的感应反馈式的模式,英伟达自动驾驶模型能够针对采取的行动来进行逻辑推理,比如“解释一下为什么选择了避让”。 03:51 英伟达这个自动驾驶模型能够做到这一点,就跟“世界模型”这个概念有关了。 03:59 除了自动驾驶模型,老黄还发布了英伟达的“第二代世界模型”,名字叫做Cosmos,为机器人大模型的训练而打造的一个模型。 05:05 实现这一转变的关键技术,正是“世界模型”,即能够模拟物理环境、预测运动、理解因果关系和自然法则的模型。 05:21 用大白话来解释一下,“世界模型”就是机器在自己的脑子里搭建了一份对“这个世界如何运转的内心地图和运行规则”。 05:53 高度依赖“数字世界”的训练方式。。。数据往往与模型当下的决策行为并不构成真正的因果闭环。 07:46 当前的机器人系统。。。不能在行动之前就可靠的预见后果,这在现实世界中是非常危险的。 08:17 目前的机器人大模型跟我们用的大语言模型一样,都是通过静态数据训练的。 08:24 静态数据训练本质上只能学到相关性,而不是因果可推演的结构。 08:33 静态训练数据的问题不在于静态本身,而是在于没有“反事实”,这里来解释一下“反事实”。。。 10:39 能够用于“行动 - 结果 - 修正”这个闭环学习的真实世界交互数据,极其稀缺。。。近期Meta收购Manus,提供了一个代表性的案例。 10:59 正因如此,当前很多机器人公司开始尝试通过“世界模型”的方式,让模型学习物理世界的因果结构和基本的自然法则。 12:42 从通用人工智能的训练的角度来看,数据的价值并不取决于对还是错,恰恰相反,错误决策所暴露出来的偏差、歧义和失败路径,往往是学习因果关系和修正世界模型最关键的信号。 13:09 说完了机器人训练中物理”世界模型“的重要性,再来看看自动驾驶。 14:20 拥有了“世界模型”的AI,像是一个在地球上生活了很久的成年人。 14:46 没有世界模型的机器只会条件反射,这在复杂的现实世界当中是非常危险的。 14:55 人类真正聪明的地方。。。是能够在行动之前先在脑中演练一次未来,“世界模型”本质上是在尝试把这种能力第一次交给机器。

16分钟
99+
3周前

E155 当AI试图站在用户和平台之间:为什么豆包手机一出就被限制?

揭秘科技

12月初,搭载豆包手机助手的努比亚M153工程样机小范围发售,主要面向开发者和科技爱好者,供其体验豆包手机助手的相关功能。消息一出,除了引起市场关注之外,马上被各大app的互联网大厂限制、或禁止与其联动。 豆包手机到底有什么独特之处?为什么一出现,就让其他app大厂如此紧张?他们真的只是紧张豆包要获取众多权限、带来隐私与安全隐患吗? 01:10 先来简要说一下豆包手机被媒体宣传的“炫酷”功能。 02:22 绝大部分手机用户都还远没有到了日理万机,连购物比价格都没有时间的程度。 02:30 在手机上各大电商平台逛比价格,本身就是类似逛街一样的休闲娱乐。 03:03 查询火车票、查距离,设置闹钟,提醒什么时候该离家,这听起来确实对于大部分人来说是个有比较有用的功能。 03:30 那几个著名的订票平台,在订票的过程当中,会想尽一切办法让你“眼花”,或者是看错错点错,而多花了几十块钱儿。 05:23 豆包手机如何实现“跨应用比价”这样的自动化操作呢? 06:43 官方和拆解的文章,都提到了“截屏 - 理解 - 下发操作 - 再截屏”这样的一个循环。 09:02 为什么那么多的APP平台选择限制豆包呢? 10:32 会侵蚀平台的流量转化和广告变现能力。。。对互联网平台来说这才是最最关心 10:47 过去20多年,中国互联网公司最好的商业模式就是做成平台,然后坐收商家的佣金和广告费。 11:46 如果AI在用户和平台之间来主导用户流量的分配,那平台辛辛苦苦补贴出来的地位不就瞬间崩塌了吗? 12:29 真正重要的是,豆包手机第一次把一个很多互联网平台心照不宣却又极力回避的问题摆到了台面上。

14分钟
99+
1个月前
揭秘科技的评价...

空空如也

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧