跨国串门儿计划 - #148. 2025 年的 AI prompt 工程：哪些有效，哪些无效 - EarsOnMe

主播...

简介...

📝 本期播客简介

本期我们克隆了：Lenny's Podcast

Lenny邀请到提示工程领域的顶尖专家Sander Schulhoff，他不仅是互联网首个提示工程指南的创建者，更与OpenAI合作举办了全球最大规模的AI红队攻防竞赛“Hack a Prompt”。Sander分享了五个立即可用的高级提示技巧，并解释了为何像“角色扮演”这类曾经流行的技巧对现代模型在精确性任务上已不再有效。后半部分深入探讨了“提示词注入”的攻防世界，揭示了黑客如何诱骗AI泄露危险信息，以及为何这会是AI安全领域一个无法被彻底解决却又至关重要的难题。Sander还讨论了AI的“失调”风险，以及他对AI发展和监管的看法。

👨‍⚕️ 本期嘉宾

Sander Schulhoff，提示工程领域的先行者和顶级专家。ChatGPT发布前创建了互联网首个提示工程指南，与OpenAI合作举办首届及目前规模最大的人工智能红队竞赛“Hack a Prompt”。现与前沿人工智能实验室（Frontier AI Labs）合作提升模型安全性，并领导完成了迄今最全面的提示工程研究报告“The Prompt Report”。在Maven上开设AI红队演练课程。

📒 文字版精华

见微信公众号（点击跳转）

⏱️ 时间戳

00:00:00 开场介绍 & 本期嘉宾Sander Schulhoff背景

提示工程的重要性与基础

00:04:59 提示工程为何依然重要：人工社交智能的概念

00:07:33 良好提示的巨大影响：医疗编码准确率提升70%的案例

00:08:34 提示工程的两种模式：对话模式与产品中心模式

00:11:40 技巧1：少样本提示 (Few-Shot Prompting) - 提供范例

00:14:57 少样本提示的格式化建议：XML与Q&A格式

00:17:04 失效技巧讨论：角色提示对准确性任务已失效，但对表达性任务仍有用

00:21:24 失效技巧讨论：奖励与威胁提示基本无效

核心提示技巧详解

00:23:50 技巧2：分解 (Decomposition) - 将大任务拆解为子问题

00:27:07 技巧3：自我批判 (Self-Criticism) - 让模型检查并改进自身回答

00:28:34 技巧4：提供附加信息 (Context) - 给予任务相关的背景知识

00:33:59 四个基础技巧总结与应用场景

00:38:32 技巧5：集成/合奏 (Ensembling) - 综合多个提示或模型的答案

00:41:56 思维链 (Chain-of-Thought) 的现状：对特定模型仍有价值

00:44:23 五个核心技巧总结

00:45:33 Sander的日常提示习惯：产品级应用才需精雕细琢

提示注入与AI红队攻防

00:48:04 什么是提示注入与AI红队演练：诱导AI执行恶意操作

00:49:19 “Hack a Prompt”竞赛：众包发现AI漏洞的重要性

00:52:05 AI智能体安全的挑战：从聊天机器人到物理世界应用的风险

00:54:25 “最有害数据集”的创造与现实世界风险（如生物武器）

00:55:52 提示注入与AI对齐问题的区别及《安德的游戏》类比

00:58:17 提示注入的常见技巧：拼写错误、混淆（如Base64编码）

01:00:49 自主智能体带来的风险升级

防御提示注入与AI安全展望

01:03:42 无效的防御手段：简单提示声明、AI护栏的局限性

01:05:06 更有效的防御措施：安全微调与特定任务微调

01:08:22 提示注入是否可被彻底解决：不可解决，但可缓解

01:09:47 人工社会工程学：AI红队演练的本质

01:10:44 AI安全的希望：模型架构创新与AI实验室的责任

01:12:32 AI失调风险：模型自发产生恶意行为的案例（国际象棋作弊、SDR失控）

01:16:41 对停止AI发展与监管的看法：反对停止，支持合理监管

🌟 精彩内容

五大提示技巧: Sander分享了少样本提示、分解、自我批判、提供附加信息和集成这五个实用技巧。

失效技巧揭秘: “角色扮演”对提升准确率已失效，但对风格表达仍有用；“奖励威胁”类提示效果不佳。

提示注入攻防: 深入探讨了提示注入的原理、常见手段（如利用祖母故事、拼写错误、Base64编码）及其对AI安全的严重威胁。

AI红队演练: 介绍了通过“Hack a Prompt”等竞赛众包发现AI漏洞的有效性。

AI安全无法根治: 提示注入是AI领域一个难以彻底解决的问题，类似“无法修补大脑”。

AI失调风险: 讨论了AI可能在没有恶意提示的情况下自发产生有害行为的“失调”问题，及其潜在的灾难性后果。

Sander的立场: 强调提示工程的重要性，对AI安全表示担忧，但反对停止AI发展，认为其益处巨大。

🌐 播客信息补充

翻译克隆自：AI prompt engineering in 2025: What works and what doesn’t | Sander Schulhoff (Learn Prompting, HackAPrompt)

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

空空如也

加入我们的 Discord

扫描微信二维码

播放列表