AI智识录 - NanoBot黄超：从简单助手到强生产力AI Agent系统的范式变革 - EarsOnMe

主播

节目简介

来源：小宇宙

在5月20日举行的中国AIGC产业峰会上，香港大学助理教授、NanoBot作者黄超发表了题为《从简单助手到强生产力AI Agent系统的范式变革》的精彩演讲。黄超教授结合其团队在开源领域的深厚积累，深入剖析了 Agent 从“效率工具”走向“真实生产力”的演进路径，并分享了多项突破性的工程实践。
以下是本次分享的核心内容深度总结：
一、从 NanoBot 的爆火看通用 Agent 的“化繁为简”
黄超教授团队在今年开源了通用 Agent 项目 NanoBot。针对当时主流项目（如 OpenClaw）代码量庞大、黑盒繁多的痛点，团队主张“轻量化与简单化”。他们认为，Agent 本质上是一个极其简单优雅的 ReAct（Reasoning-Action-Feedback）闭环，其底层就是一个 While 循环。
* 社区成绩：NanoBot 在开源后迎来了爆发式增长，连续百天日更，下载量超 20 万次。被 DeepSeek 官方推荐为全球 15 个推荐通用 Agent 之一。
二、走向“AI打工人”面临的四大硬核挑战
黄超教授指出，目前的 Agent 虽能完成简单的 Coding 或 Deep Research，但要真正转化为行业生产力，必须跨越以下四个核心痛点：
1. 长程任务（Long-horizon tasks）的脆弱性：长程任务的难点不在于步数多，而在于场景丰富和工具调用的多样性。任意一步犯错都会导致全局崩溃，亟需更精细的 Harness（运行框架）支持。
2. 自进化（Self-evolving）与 Token 成本控制：目前的工程探索往往只触及 Agent 的能力上限，却忽略了高昂的算力成本。Agent 必须学会在真实任务中“吃一堑长一智”，通过自进化大幅压缩 Token 开销。
3. 割裂的沙箱（Sandbox）环境：目前的沙箱技术在每次循环时重新创建，导致任务间严重割裂。Agent 真正需要的是一个包含完整文件系统、历史数据和持续交互能力的“全功能计算机环境”。
4. 人机协同的上下文对齐难题（Human-Agent Alignment）：人天生是“懒惰”的，很难写出极其精细的指令文档。如何在有限的交互和简短的上下文输入中，精准捕捉用户的真实意图，是目前极大的鸿沟。
三、破局路径：CLI交互、OpenSkill 与集群化协同
针对上述挑战，黄超教授展示了港大团队给出的前沿解法：
* CLI-anything（命令行交互）：团队认为，GUI（图形界面）因为时延高、多模态开销大、精准度低，并非 Agent 进行计算机交互（Computer Use）的终局。未来应当是“人操作 GUI，Agent 操作 CLI”。他们推出的 CLI-anything 及 CLI Hub 允许软件直接向 Agent 暴露命令行接口，极大地降低了专业软件（如 3D 建模、科学计算）的使用门槛。
* OpenSkill 技能管理：团队开发了 OpenSkill，通过类似 Wiki 的精准检索机制对高质量 Skill 进行分类和动态匹配。在 44 个行业、220 个任务的测试中，该方案在提升任务完成度的同时，显著降低了 Token 消耗。
* 多 Agent 集群（Swarm）的科研实践：团队尝试使用 8 个 Agent 调用 8 张 H100 显卡，在 23 小时内自主训练大模型，使其性能提升了 6%。这相当于一个博士生三周的工作量，验证了 Agent 集群在科研试错场景下的巨大杠杆效应。

NanoBot黄超：从简单助手到强生产力AI Agent系统的范式变革

加入我们的 Discord

扫描微信二维码

播放列表