智幻时刻Fungimind - E19 对话孙军：人类凭什么比AI更有资格定义安全？ - EarsOnMe

主播

节目简介

来源：小宇宙

2026年1月，新加坡成为全球第一个发布Agentic AI治理框架的国家。这份由IMDA牵头、在达沃斯世界经济论坛上正式发布的《Agentic AI模型治理框架》，标志着全球AI治理进入了一个新的阶段——我们不再只是讨论会生成内容的AI，而是开始正视会行动、会决策、会接管系统的AI。
本期节目，我们邀请到新加坡管理大学计算与信息学院终身教授孙军老师，他不仅是形式化验证领域的知名学者，也是新加坡各项AI安全标准制定的核心参与者之一。他和我们分享了新加坡AI治理框架背后的设计逻辑、安全标准，他对世界模型的“偏见”、以及为什么他认为用人类标准来对齐AI这件事本身值得被质疑。
*
特约嘉宾：
孙军：2007年，孙军获得了李光耀博士后奖学金，并于2010年起担任新加坡管理大学计算与信息学院终身教授。他的研究领域包括人工智能安全、软件工程和形式化方法，已在多个顶级会议和期刊上发表了250多篇论文。他开发的PAT模型检查器被多家公司用于软件分析，并担任多家公司的资深技术顾问，是国际形式化验证与系统安全研究领域的重要学者之一。
本期主播：
Zhuoran：智幻时刻Fungimind主播，重点关注科技法、STS和技术在垂直行业的扩散，拥有财经媒体和云计算&AI行业的交叉从业背景。
*
SHOWNOTES：
00:05 开篇
04:35 新加坡为何率先发布 Agent 治理框架？
06:55正在主导制定的另一份Technical Reference是什么？和IMDA框架有什么区别？
11:23 几个具体的安全风险例子
15:15 按照现在技术演进速度，模型安全评测的周期会不会越来越短？
18:36 AI Verify工具包的现状，agent相关内容会越来越多加进评测工具吗？
22:45 为什么垂直行业的具体安全需求才是核心问题
28:48 人类为何给agent一个“身份”？
33:19 AI学者如何看待人类的情感边界被技术入侵？
36:44 幻觉检测中模型会知道被监督就撒谎
41:29 Human in the loop在agent语境下没用了？
45:22 新加坡为什么没有自己的大模型？
53:50 开源vs闭源
59:13 《Project Hail Mary》和《超级智能》
01:02:33 安全研究会走向虚无主义吗？
*
本期涉及的核心文献与资源
新加坡治理框架
* 新加坡IMDA《Agentic AI模型治理框架》（2026年1月）官方全文：www.imda.gov.sg
* 新加坡AI Verify工具包：aiverifyfoundation.sg
文中涉及的部分近期论文：
* CORVUS: Red-Teaming Hallucination Detectors via Internal Signal Camouflage in Large Language Models
Preprint, Jan 2026 — 探讨现有 LLM 幻觉检测器如何被模型“对抗性隐藏信号”欺骗，从而揭示检测方法的脆弱性。
* Developing a Strong CPS Defender: An Evolutionary Approach
Preprint, Dec 2025 — 提出一种进化式方法提升网络物理系统（CPS）异常检测防御能力。
* SoK: a Comprehensive Causality Analysis Framework for Large Language Model Security
Preprint, Dec 2025 — 通过因果分析统一解释大模型安全弱点（如越狱、对抗样本）并辅助防御策略设计。
节目中提到的其他参考
* Anthropic Weak-to-Strong Generalization研究
* 新加坡网络安全局（CSA）Agentic AI安全指南（2025年10月）
* 节目中提到的书：《Project Hail Mary》，Andy Weir著，中文版《拯救计划》
*
🎵
制作团队：智幻时刻Fungimind
BGM：
* 开场：Zack Hemsey - Mind Heist No Turning Back
* 插曲：Richie Hawtin - Headcase
* 片尾：Lonely Man - Alex Hamlin
* Email: [email protected]
本期播客的完整视频欢迎搜索智幻时刻Fungimind的小红书（Fungimind_AI治理蘑菇）、B站同名账号或官网（thefungimind.com)。

E19 对话孙军：人类凭什么比AI更有资格定义安全？

加入我们的 Discord

扫描微信二维码

播放列表