主播
节目简介
来源:小宇宙
本期嘉宾:
王启斌 灵初智能 创始人兼首席执行官20年+商业化实战经验,多次实现机器人/消费电子产品从定义、开发、上市、全球化“0-1-N”闭环,带领百人团队作战。
陈源培 灵初智能 联合创始人00后“天才少年”,全球首次落地基于强化学习的双臂双手多技能操作,目前国内灵巧手操作领域强化学习Sim2Real方向成果最多的学者。
本期节目简介
70后为什么要和00后一起开机器人公司?为什么具身智能热潮里,这家公司选择不做双足全人形,而是用轮式底盘?AI和机器人都会替代谁的工作?
带着这些问题,我探访了灵初智能,和70后商业老将CEO王启斌和00后「AI Native」联创陈源培畅谈,在机器人的大赛道里,他们是如何抓住务实落地小场景的。
专业词汇注释
具身智能:即具身化的人工智能,能通过物理身体与现实世界环境互动学习和进化,如机器人。
遥操作:通过交互设备对远程机器或系统进行实时控制。
强化学习:AI通过不断试错来学习的方式,在执行任务时 行为达标即可得奖励,不断累积经验,从而做出更好决策。
VLA:Vision-Language-Action Model。即视觉语言动作模型 不仅理解语言指令,也能通过视觉感知环境,而后自主决策和执行动作。
VLM:Vision–Language Model。即视觉语言模型,对视觉内容可深刻理解,并可进行自然语言交互。
预训练:通过大规模通用数据集对模型进行初步训练,使其掌握语言、图像等数据的基本结构和通用特征,从而为后续的特定任务优化提供基础。
后训练:预训练完后进行专业化能力增强的阶段,通过微调与对齐技术 调整模型参数,更精准适配目标场景。
机器人大小脑(快慢脑):类似人类大脑负责决策、小脑负责协调运动,亦有快慢脑架构,慢脑专注于场景理解,任务规划和长期决策;快脑专注于实时控制与动态响应,快速执行具体动作。
长程灵巧操作:指机器人在开放环境中自主执行一系列精细动作任务。这些任务通常涉及多步骤、工具使用、物体交互,以及需要适应实时变化的环境。
人在回路:Human-in-the-Loop。人类实时参与AI决策闭环,用于修正模型偏差或处理不确定性场景。
ImageNet:机器学习中最著名的可视化数据集之一,视觉模型训练基石,超过1400万的图像URL被ImageNet手动注释,包含2万多个类别,每个类别包含数百个图像。
CoT:Chain-of-Thought。即思维链,处理复杂任务时,让AI分步展示逻辑推理步骤,方便使用者了解过程 进行针对性训练和优化。
API:Application Programming Interface。软件通信接口,不同程序交互的桥梁,可让AI连APP、连机器人,功能互通。
RLHF:Reinforcement Learning from Human Feedback。即人类反馈强化学习,AI通过人类评价、学习人类偏好,进行调优。
世界模型 World Model:类似于真正的人类大脑,理解现实世界中的物理和因果规律,具备“物理直觉” 可在内部模拟环境变化,并基于环境推演未来状态 评估自身行为的后果。
CoAT:Chain-of-Action-Thought模型。它在传统思维链(CoT)中引入元动作(meta-actions),来实现模型在推理过程中的自主控制和动态调整。
Sim-to-Real Gap:即仿真到现实的差距,指人工智能在仿真环境中表现良好,但迁移到真实物理世界时性能显著下降的现象。
Embodiment Gap:即具身鸿沟。指具身智能在模拟环境中的表现和物理世界真实交互能力存在显著差距。
eVTOL:Electric Vertical Take-Off and Landing。即电动垂直起降飞行器 无需跑道即可起降,用于城市空中交通(飞行汽车)或低空运输。
AGI:Artificial General Intelligence。即通用人工智能 能像人类一样思考并执行任意任务,是普遍认为的人工智能终极目标。
PMF:Product-Market Fit。产品与市场的最佳契合点和匹配度,被普遍认为是创业成功的核心要素之一。
AI Native:即AI原生物种或人群,从诞生之初就在 AI 范式和环境里成长学习,并持续演进的个体和组织。
时间轴导航
⏰ 07:28- 「比特斯拉早3年?灵巧手研发的早期布局」
团队早在2020年就开始研发灵巧手技术,比行业热潮提前多年
⏰ 11:57- 「为什么不做全人形机器人?」
"双足机器人为了保持稳定要花费很多算力和能源,即使这样依然有摔倒危险"
⏰ 15:35- 「家庭机器人的真实难度」
"大家低估了人形机器人进家庭的难度,从操作安全到故障修复,每个问题都很复杂"
⏰ 25:57- 「智能体技术如何赋能机器人」
"大模型真正能干活一定要变成智能体,一旦加上物理的身体,智能体就能发挥巨大作用"
⏰ 35:09- 「机器人数据获取的创新方法」
嘉宾分享灵初独特的数据采集策略,结合互联网数据、仿真数据、真实数据和真机数据
⏰ 40:39- 「人机协作的未来模式」
王启斌提出机器人发展将遵循自动驾驶的路径,大部分时间自主工作,特殊情况人工接管
⏰ 50:49- 「中国机器人企业出海战略思考」
王启斌分享公司出海战略,计划将中国仓储场景打磨的技术解决方案推向全球市场
"中国的仓储是世界上效率最高、成本最低的,我们有信心明年年底做全球化,解决全球通用的操作问题"
⏰ 52:46- 「AI对人类工作的替代与转型」
周鸿祎提出尖锐问题,探讨机器人产业对蓝领工作的影响及未来5年岗位变化趋势
⏰ 58:17- 「70后和00后一起创业?有代沟吗?会打起来?」
周鸿祎调侃00后陈源培与70后王启斌的年龄差距,探讨跨代创业团队的优势与挑战
⏰ 01:04:16- 「什么是AI Native公司?AI时代的组织模式变革」
周鸿祎分析AI对企业组织结构的影响,指出传统互联网大厂的分工模式正在失效
"AI让人类分工界限模糊了,以前做产品需要产品经理、UI设计师、研发人员的严格分工,现在可能一个人借助AI就能完成"
⏰ 01:11:38- 「AI时代与互联网时代商业模式非常不同」
"AI是一种生产力,用得越多成本越高,很难免费,这会让很多互联网免费模式玩不转"
王启斌 灵初智能 创始人兼首席执行官20年+商业化实战经验,多次实现机器人/消费电子产品从定义、开发、上市、全球化“0-1-N”闭环,带领百人团队作战。
陈源培 灵初智能 联合创始人00后“天才少年”,全球首次落地基于强化学习的双臂双手多技能操作,目前国内灵巧手操作领域强化学习Sim2Real方向成果最多的学者。
本期节目简介
70后为什么要和00后一起开机器人公司?为什么具身智能热潮里,这家公司选择不做双足全人形,而是用轮式底盘?AI和机器人都会替代谁的工作?
带着这些问题,我探访了灵初智能,和70后商业老将CEO王启斌和00后「AI Native」联创陈源培畅谈,在机器人的大赛道里,他们是如何抓住务实落地小场景的。
专业词汇注释
具身智能:即具身化的人工智能,能通过物理身体与现实世界环境互动学习和进化,如机器人。
遥操作:通过交互设备对远程机器或系统进行实时控制。
强化学习:AI通过不断试错来学习的方式,在执行任务时 行为达标即可得奖励,不断累积经验,从而做出更好决策。
VLA:Vision-Language-Action Model。即视觉语言动作模型 不仅理解语言指令,也能通过视觉感知环境,而后自主决策和执行动作。
VLM:Vision–Language Model。即视觉语言模型,对视觉内容可深刻理解,并可进行自然语言交互。
预训练:通过大规模通用数据集对模型进行初步训练,使其掌握语言、图像等数据的基本结构和通用特征,从而为后续的特定任务优化提供基础。
后训练:预训练完后进行专业化能力增强的阶段,通过微调与对齐技术 调整模型参数,更精准适配目标场景。
机器人大小脑(快慢脑):类似人类大脑负责决策、小脑负责协调运动,亦有快慢脑架构,慢脑专注于场景理解,任务规划和长期决策;快脑专注于实时控制与动态响应,快速执行具体动作。
长程灵巧操作:指机器人在开放环境中自主执行一系列精细动作任务。这些任务通常涉及多步骤、工具使用、物体交互,以及需要适应实时变化的环境。
人在回路:Human-in-the-Loop。人类实时参与AI决策闭环,用于修正模型偏差或处理不确定性场景。
ImageNet:机器学习中最著名的可视化数据集之一,视觉模型训练基石,超过1400万的图像URL被ImageNet手动注释,包含2万多个类别,每个类别包含数百个图像。
CoT:Chain-of-Thought。即思维链,处理复杂任务时,让AI分步展示逻辑推理步骤,方便使用者了解过程 进行针对性训练和优化。
API:Application Programming Interface。软件通信接口,不同程序交互的桥梁,可让AI连APP、连机器人,功能互通。
RLHF:Reinforcement Learning from Human Feedback。即人类反馈强化学习,AI通过人类评价、学习人类偏好,进行调优。
世界模型 World Model:类似于真正的人类大脑,理解现实世界中的物理和因果规律,具备“物理直觉” 可在内部模拟环境变化,并基于环境推演未来状态 评估自身行为的后果。
CoAT:Chain-of-Action-Thought模型。它在传统思维链(CoT)中引入元动作(meta-actions),来实现模型在推理过程中的自主控制和动态调整。
Sim-to-Real Gap:即仿真到现实的差距,指人工智能在仿真环境中表现良好,但迁移到真实物理世界时性能显著下降的现象。
Embodiment Gap:即具身鸿沟。指具身智能在模拟环境中的表现和物理世界真实交互能力存在显著差距。
eVTOL:Electric Vertical Take-Off and Landing。即电动垂直起降飞行器 无需跑道即可起降,用于城市空中交通(飞行汽车)或低空运输。
AGI:Artificial General Intelligence。即通用人工智能 能像人类一样思考并执行任意任务,是普遍认为的人工智能终极目标。
PMF:Product-Market Fit。产品与市场的最佳契合点和匹配度,被普遍认为是创业成功的核心要素之一。
AI Native:即AI原生物种或人群,从诞生之初就在 AI 范式和环境里成长学习,并持续演进的个体和组织。
时间轴导航
⏰ 07:28- 「比特斯拉早3年?灵巧手研发的早期布局」
团队早在2020年就开始研发灵巧手技术,比行业热潮提前多年
⏰ 11:57- 「为什么不做全人形机器人?」
"双足机器人为了保持稳定要花费很多算力和能源,即使这样依然有摔倒危险"
⏰ 15:35- 「家庭机器人的真实难度」
"大家低估了人形机器人进家庭的难度,从操作安全到故障修复,每个问题都很复杂"
⏰ 25:57- 「智能体技术如何赋能机器人」
"大模型真正能干活一定要变成智能体,一旦加上物理的身体,智能体就能发挥巨大作用"
⏰ 35:09- 「机器人数据获取的创新方法」
嘉宾分享灵初独特的数据采集策略,结合互联网数据、仿真数据、真实数据和真机数据
⏰ 40:39- 「人机协作的未来模式」
王启斌提出机器人发展将遵循自动驾驶的路径,大部分时间自主工作,特殊情况人工接管
⏰ 50:49- 「中国机器人企业出海战略思考」
王启斌分享公司出海战略,计划将中国仓储场景打磨的技术解决方案推向全球市场
"中国的仓储是世界上效率最高、成本最低的,我们有信心明年年底做全球化,解决全球通用的操作问题"
⏰ 52:46- 「AI对人类工作的替代与转型」
周鸿祎提出尖锐问题,探讨机器人产业对蓝领工作的影响及未来5年岗位变化趋势
⏰ 58:17- 「70后和00后一起创业?有代沟吗?会打起来?」
周鸿祎调侃00后陈源培与70后王启斌的年龄差距,探讨跨代创业团队的优势与挑战
⏰ 01:04:16- 「什么是AI Native公司?AI时代的组织模式变革」
周鸿祎分析AI对企业组织结构的影响,指出传统互联网大厂的分工模式正在失效
"AI让人类分工界限模糊了,以前做产品需要产品经理、UI设计师、研发人员的严格分工,现在可能一个人借助AI就能完成"
⏰ 01:11:38- 「AI时代与互联网时代商业模式非常不同」
"AI是一种生产力,用得越多成本越高,很难免费,这会让很多互联网免费模式玩不转"
评价
空空如也
小宇宙热评
小和平鸽
2个月前
北京
2
21:20 对。人类的根本优势在于会使用工具。所以“人类”在工厂里的典型的合理化行为就是,把一个不规则的重物搬起来以后,“放到”一个ATV小车上推着走或者开着走。 所以如果有某人形机器人厂商设想的应用场景是人形机器人把那个机器人拿起来以后“抱着走、那,这脑子一定不是正常的。
HD869581r
2个月前
上海
0
.
天际放猪
2个月前
广东
0
是真红衣大叔吗
小和平鸽
2个月前
北京
0
03:16 玛莎拉蒂不是奢侈品,玛莎拉蒂是已经臭了。 这应该是老周的意思。 而且更可怕的是,臭掉的原因竟然是因为一直躺着。这估计是老周更担心的。