刚发布的Opus 4.7,根据官方信息和技术报告(232页)做相对全面解读。 摘要: * Claude Opus 4.7 在高级软件工程和长流程任务上,相比 4.6 有显著提升的新旗舰模型,用户已经在将“最难、最需要看紧”的编码工作放心交给它。 * 在复杂代码编写、CI/CD、异步自动化、多步代理工作上表现更稳、更少出错,并且会主动检查和验证自己的输出,比如为系统代码先做“证明”、在长时间任务中持续推进而不是中途放弃。 * 多模态方面,它支持更高分辨率图像输入(长边最高 2576 像素),能阅读更密集的截图、技术图表和化学结构,在文档推理、金融分析、法律审阅等“高价值知识工作”的第三方评测中达到当前 SOTA。 * 安全上,它整体与 Opus 4.6 类似甚至略优,特别是在诚实性和抵抗恶意提示注入方面,但 Anthropic 特意削弱了它的进攻性网络安全能力,并通过自动拦截高风险网络安全请求来做“实战安全测试”,为未来更强的 Mythos 级模型铺路。 * 产品层面,Opus 4.7 保持与 4.6 相同价格,但引入了更细粒度的 effort 控制(新增 xhigh)、更高效的长程推理 token 使用,以及任务预算、Claude Code 的 /ultrareview 和更智能的 auto mode 等配套能力,被多家头部公司实测为几乎各方面“无回退的直接升级”。 来源:https://www.anthropic.com/news/claude-opus-4-7 https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf
Stanford HAI(斯坦福大学人本AI研究院) 刚发布的《2026 AI Index Report》。 摘要: * AI 的能力远未到瓶颈。它正在加速发展,并触达前所未有数量的人。 * 在 AI 模型性能上,美中之间的差距已经几乎被抹平。 * 几乎所有领先的 AI 芯片都由同一家公司——台积电——代工,这让全球 AI 硬件供应链高度依赖台湾的一家晶圆厂;虽然台积电在美国的新产线已于 2025 年开始运营。 * 负责任 AI 的进展远远跟不上 AI 能力的提升:安全评估标准明显滞后,相关事故却在急剧上升。 * 在 AI 的未来上,专家和公众看法存在巨大分歧,而全球社会对各类机构「能否管好 AI」的信任也是支离破碎的。 来源:https://hai.stanford.edu/ai-index/2026-ai-index-report
背景:Hermes Agent 把 Harness Engineering 从“高手手工调教”做成了“开箱即用且会自我进化”的产品化系统。 金句: * 限制 AI Agent 表现的瓶颈,往往不是模型本身,而是模型运行的环境配置。 * Harness Engineering 的本质,是用一套持续生长的约束系统,让 AI 在可控边界内越来越可靠。 * Hermes 最重要的创新,不是又多了几个工具,而是它开始学会“自己给自己造缰绳”。 * 三层记忆回答的是三个不同问题:刚刚发生了什么、你是谁、这件事该怎么做。 * 自主 Agent 的真正挑战从来不是让它跑得更快,而是让它在没人盯着的时候,依然朝着正确方向前进。 来源链接: * GitHub - NousResearch/hermes-agent: The agent that grows with you
Anthropic今天发布了Claude Mythos Preview 的 System Card:这是他们迄今能力最强的前沿模型之一,但正因为它在网络安全、代理执行和高风险任务中的能力跃迁,官方决定暂不向公众开放,而是限制在防御性网络安全合作场景中使用。 摘要: 1. Claude Mythos Preview 展现出的,不只是“更强”,而是一次真正意义上的能力跃迁。 2. Anthropic 这次最重要的信号,不是发布了一个更强模型,而是承认:传统安全评估方法,已经开始跟不上前沿模型的进化速度。 3. Mythos Preview 在真实软件环境中的漏洞发现与利用能力,是它没有被公开发布的关键原因之一。 4. Anthropic 一方面称它是“目前为止对齐表现最好的模型”,另一方面也承认:一旦它在少数场景下出错,后果会比过去严重得多。 5. 前沿模型竞争,正在从“谁更强”转向“谁能证明自己能控制更强的模型”。 来源: www-cdn.anthropic.com
背景: 刚“开源”的Claude code源码堪称Harness engineering的经典案例:从 system prompt 动静分离、prompt cache 边界设计,到 AgentTool 调度链、Verification Agent、Skills / Plugins / Hooks / MCP 生态,以及权限与工具执行的完整 runtime pipeline。 真正的护城河从来不是一段“神秘提示词”,而是一整套把 prompt、工具、权限、agent 分工、插件生态和产品体验统一起来的 Agent Operating System。 摘要: 1)“Claude Code 的核心价值,不是一段 system prompt,而是一整套 operating model。” 2)“它把‘好行为’从工程师个人习惯,升级成写进 prompt 和 runtime 里的制度。” 3)“在 Claude Code 里,Skill 不是文档,而是 prompt‑native 的 workflow package。” 4)“多 Agent 真正的难点,不是能不能跑起来,而是怎么在 fork 中守住上下文与 cache。” 5)“Verification Agent 的任务不是盖章通过,而是用 adversarial 思维去 try to break it。” 6)“Claude Code 让我确信:优秀的 AI 产品不是‘会调工具的聊天机器人’,而是一套可扩展、可治理、可产品化的 Agent Operating System。” 来源:https://x.com/tvytlx
我做产品的动力动力是什么?……我们试图用我们仅有的天分去表达我们深层的感受,去表达我们对前人所有贡献的感激,去为历史长河加上一点儿什么” ——Steve Jobs 这个月正好是建造LanguageX的五周年,我想正式地说声再见。 五年里我们风雨兼程地建造了这个作品,也取得了一些小小的成就:两届WMT机器翻译比赛的冠军,6项产品入围NImdzi语言技术图谱,企业/高校/用户的口碑。 [Image] 对我个人而言,LanguageX是我自己过去五年精神的一个投射,就像纪伯伦说的“将你的灵魂之气注入到你的产品中”。也像是一份日记:一个按钮,一个图标,一句文案,会回想起来当时的自己和小伙伴们。 事实上,languageX起源于兰亭译,都是AI辅助翻译,对我来说只是和不同的团队合作。这样的话,我其实花了七年之久打造这款产品。它本质是一款连接语言工作者和AI的平台——我一直对纯AI或者自动化的东西不感兴趣:如果一个产品里面没有人的位置,我会觉得缺了点什么。 LanguageX在业务蒸蒸日上的甲骨易手里,我希望随着业务变化,它也能穿越周期,去往更远的远方。 而我,也在经历一次目前为止最大的蜕变和转型——有段时间,我甚至对自己感到困惑,剥离了languageX的David,他是谁? 从翻译领域到AI,从一个产出外语文字的文科生,到一个产出想法和需求的产品经理,再从一个驱动团队的的业务负责人,到需要自己产出代码的builder。很多人问我为什么总是在跨界,是怎么从翻译变成了一个“技术”。我只能简单说“喜欢”,其实从更深处,我逐渐意识到,我只是在做一件事——找到更适合自己的“毛笔”去创作,去表达。 languageX的缘起 小时候练习书法,背“草决歌”,中学参加英语竞赛还奖励了一个复读机,大学的专业是俄语,毕业后做了一名翻译——这些都是我和语言的不解之缘。因为一句话、一个词表达而痛苦,又因为找到恰当的表达后的欢欣,对我而言也是一种创作。 但商业人工翻译是一项艰苦的劳作:在有限的时间查证术语、手动复制粘贴重复的句子(改掉其中不同的数字和词)、搞定耗时费力的格式问题……在这个过程中,我见到Trados(一款专业辅助翻译软件)的威力,它可以直接帮你填充重复句子,保持术语统一,解析复杂的格式。 但Trados带来了另一种痛苦:巨大的桌面软件,安装后连电脑都卡顿,操作繁琐、到处找操作教程。好的操作教程往往是付费的,我还见过需要培训一个月的Trados培训班。 后来,我又陆续见到SmartCAT,见到惊为天人的谷歌翻译(NMT神经网络机器翻译)——这些吸引我一步步靠近这些所谓的“技术”(讽刺的是,我在大学阶段是以反技术著称的),我想搞清楚它们是什么……追随自己的好奇心,回头的时候才发现跨越了这么多所谓的“边界”。 有一天我看到俞军的一句话:“产品经理就是“以产品为笔,和世界对话。”我想,产品就是那支我在寻找的“毛笔”。 说到LanguageX,五年前从一个粗糙的PRD,以及改了不知道多少遍的原型开始。本来只想做一个CAT,后来做了翻译模型、交互式翻译、翻译项目管理、还有工具箱,翻译智能体…… 用开发同学的话说,我们“一直在急行军”。那些需求评审的争吵,那些加班的晚上,新版本上线后的兴奋,好像还只是昨天。 最让我自豪的,languageX始终葆有人文(humanity)的气息,我理解的“热爱、简单、人本”——它其实也是一种价值观。 热爱:不只是UI细节(当然UI我们花了很多心思,比如登录页就是Logo的形状),还有当时的小伙伴们,都是一群热爱自己工作的人:从设计到前端、后端测试、算法、运营。我们招人的直觉之一,就是去感受,这个人对自己做的事情有没有热爱。 简单:在同等功能中,我们的上线标准是要做到行业中最简,不需要“操作手册”,把复杂转移到后台。记得有一个高校老师兴奋地对我说过:她从来没有见过这么简单又这么强大的CAT。 还有一层“人文”,它无处不在,但最重要的是“Human in the loop”,译者是受尊重的,而不是作为配角。比如交互式翻译而不是译后编辑,先上传文件而不是先建空项目。上线“翻译智能体”后,我没有喜悦,反倒有些怅然若失——我没能为译员找到一个合适的位置。 为什么告别? 这也是我过去几个月一直在问自己的问题。 每年我们会收到一个翻译工作室寄来的土特产,那是内蒙的一个老师,虽然他只是一个Pro版用户。拜访过不少翻译公司,很多都在艰难转型,翻译圈的会议也越来越少。高校方面,听说很多学校开始裁撤外语专业,老师和学生都有恐慌,甚至有外语学院院长说“自己可能是最后一任院长”了。 翻译只是其中一个小众方向。全国有1000多所高校开设了外语专业,在AI和逆全球化的双重夹击下,恐慌情绪在蔓延……我希望能为这个群体做点什么。 另外一方面,如果一个作品不再是最好,我就失去曾经那种昼思夜想的建造动力了。ChatGPT出现之后,我发现LLM才是最好的翻译模型:无论是横向更全的语言能力(翻译/术语处理/QA/润色),还是纵向更好的译文(深度理解上下文,并且是几乎每个领域的行业知识专家)。曾经的设想“最好的翻译平台——吸引最好的译者和模型标注者——最好的模型”被打破了。就像Richard Sutton笔下的The Bitter lesson——通用的总是打败垂直。 当然,还有产品开发模式的巨变,从过去需求评审——UI设计图——前端——后端——测试——上线的团队模式,每个版本需要3-4周的模式。从Vscode到Cursor和Windsurf,又到最近的Claude Code和Antigravity……过去的敏捷开发和团队协作都太滞后了,我的心情就像我去年在朋友圈发的: 我要去哪里? 2019年做兰亭译的时候,我在产品介绍里的这张Slide,从“人人皆译者”到“人人皆开发者”——只是一种对未来的“幻想”,回头看竟然隐约有种奇妙的指引,尽管当时根本还没有Vibe coding。 我的下一段旅程,是跟“人人皆开发者”相关的,不管AI coding是Vibe coding,还是Spec coding,还是现在火起来的Harness engineering。它就是那支毛笔。 最后,感谢所有支持过languageX的人,一起并肩战斗的小伙伴。这段旅程我不会忘记。 我暂时离开,陪伴家人。我也在筹备一个新的AI人文社区,帮助“曾经的自己”——非技术背景的外语人或文科生,用AI作为自己的“毛笔”,写下有自己灵魂气息的作品。 One more thing:如果想关注AI人文社区的动态,可以先加入这个群。如果群二维码过期了,可以加:jeusmypower 原文链接:https://mp.weixin.qq.com/s/iIZKeGdTTAGXj30Zav32zw?scene=1&poc_token=HCccy2mjH77Wcz8RA8QCF8GxPEuZH6v4FlOLHBxU
Anthropic发布的报告:他们用一个「AI 访谈官」,在一周之内和来自 159 个国家、使用 70 种语言的 80,508 位 Claude 用户聊了聊——你在用 AI 做什么?你真正希望它为你改变什么?你又在害怕什么? 本期你会听到: * 人们最想要的 9 大 AI 愿景:从「专业进阶」到「个人蜕变」、从「时间自由」到「社会改造」。 * AI 到底有没有帮到他们?他们实际感受到的 6 种改变:生产力、思考伙伴、学习、情感支持、技术可达性、信息综述…… * 最让人不安的 13 种风险:幻觉与不可靠、工作与经济、认知退化、隐私与监控、情感依赖、存在性风险等等。 * 那 5 组最典型的「张力」:学得更快 vs 不再愿意思考;决策更好 vs 过度相信幻觉;被 AI 陪伴 vs 失去和人的连接;省下时间 vs 被迫跑得更快;靠 AI 创造机会 vs 被 AI 抢走饭碗。 * 不同地区对 AI 的态度差异:为什么发达地区的人更焦虑治理和隐私,而很多新兴市场的人把 AI 当成「资本绕行工具」和「机会加速器」? 这不是一篇技术评测,而是一份全球范围的情绪横截面:它让我们第一次能比较系统地看到,「AI 时代的普通人」到底在想什么、在怕什么、又在偷偷期待什么。 来源:https://www.anthropic.com/features/81k-interviews
背景:关于Openclaw内核文件的深度解析。 在 OpenClaw 的使用者里,有一条隐形的分界线。 一边的人,每次跟 Agent 说话都像重新 onboarding:得再讲一遍背景、偏好和上下文。另一边的人,Agent 已经知道自己是谁、该怎么说话、用户讨厌什么,也记得上次积累下来的东西。 这条分界线,叫 workspace。 来源:https://docs.openclaw.ai/
这是Anthropic工程师近日发布的关于 Claude Code Skills 的实践指南。文章基于 Anthropic 内部数百个 Skills 的使用经验,提炼出系统化的分类体系和编写最佳实践。 核心内容包括: • Skills 的九大类别:库与API参考、产品验证、数据获取与分析、业务流程与团队自动化等 • 编写技巧:不要说显而易见的事、建立踩坑点章节、利用文件系统与渐进式披露 • 实际案例:frontend design Skills、signup-flow-driver 验证 Skills • 分发策略:从代码仓库到内部插件市场的演进 来源:anthropic.skilljar.com
刚落幕的老黄GTC2026演讲,围绕 CUDA 20 周年、Blackwell / Vera Rubin 架构和“万亿美元 AI 工厂”,讲了英伟达如何重构整个 AI 产业链。以及OpenClaw为什么是Agent的操作系统。 摘要: 1. “数据中心不再是机房,而是铸造 token 的 AI 工厂;OpenClaw 则是在这座工厂里跑的操作系统。” 2. “英伟达在造钢铁和电力,OpenClaw 在发明新的机器和工人,两者叠加才是下一波 AI 工业革命。” 3. “今天所有人都在抢 GPU,真正被低估的是:谁能先把 OpenClaw 级别的代理 OS 安全地落在企业内部。” 4. “没有 OpenClaw,LLM 只是更聪明的搜索框;有了 OpenClaw,它们才第一次像一支可以排兵布阵的团队。” 5. “未来每个公司都会有自己的 token 工厂和代理军团——英伟达卖的是算力,OpenClaw 管的是灵魂和纪律。” 6. “你可以不写一行 CUDA,也得想清楚你的 OpenClaw 策略:哪些事交给 Agent,哪些边界永远只留给人类。” 7. 来源:https://www.youtube.com/watch?v=jw_o0xr8MWU
背景: 今年年初不可忽略的一篇雄文,原题是:THE 2028 GLOBAL INTELLIGENCE CRISIS。 假设2028 年,回顾 AI 爆发后的两三年,写的一封“宏观备忘录”。作者提出:如果我们今天对 AI 的乐观全部成真,结果可能不是繁荣,而是一场由“智能过剩”引发的系统性危机。 过去几百年,稀缺的是人类智能,整个经济架构、金融系统、税制和社会契约,都建立在“人类脑力是最贵最稀缺资源”的前提上。AI 即将让这个秩序崩塌。 摘要: * AI 让一个 GPU 集群干掉了一整栋写字楼的白领,这更像是一场经济瘟疫,而不是经济红利。 * 企业用 AI 裁掉人,再把省下来的工资继续砸给 AI,这就是‘人类智能被替代的负反馈循环’。 * ……这是第一次,经济中最强劲的生产力资产,创造的是更少的工作岗位,而不是更多。” 来源:https://www.citriniresearch.com/p/2028gic
研读一下Anthropic 最近发布的《2026 Agentic CodingTrends Report》。 摘要: 1)“工程师的价值,正在从‘写对代码’转向‘问对问题、拆对任务、选对妥协’。” 2)“AI 可以写一切看起来正确的代码,但只有人类知道‘什么值得被写’。” 3)“生产力的质变,不是每个任务快 20%,而是让原本不会发生的任务大量发生。” 4)“Agent 让安全知识平民化,也让攻击能力规模化——差别在于谁先把安全当成架构,而不是补丁。” 5)“越是强大的 Agent 系统,越需要清晰的‘人类最后一公里’:谁在什么时候说 yes 或 no。” 6)“未来的组织会分成两类:把 Agentic Coding 当插件用的,和用 Agentic Coding 重写自己工作方式的。” 来源:https://resources.anthropic.com/hubfs/2026%20Agentic%20Coding%20Trends%20Report.pdf?hsLang=en
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧