主播
节目简介
来源:小宇宙
刚发布的Opus 4.7,根据官方信息和技术报告(232页)做相对全面解读。
摘要:
* Claude Opus 4.7 在高级软件工程和长流程任务上,相比 4.6 有显著提升的新旗舰模型,用户已经在将“最难、最需要看紧”的编码工作放心交给它。
* 在复杂代码编写、CI/CD、异步自动化、多步代理工作上表现更稳、更少出错,并且会主动检查和验证自己的输出,比如为系统代码先做“证明”、在长时间任务中持续推进而不是中途放弃。
* 多模态方面,它支持更高分辨率图像输入(长边最高 2576 像素),能阅读更密集的截图、技术图表和化学结构,在文档推理、金融分析、法律审阅等“高价值知识工作”的第三方评测中达到当前 SOTA。
* 安全上,它整体与 Opus 4.6 类似甚至略优,特别是在诚实性和抵抗恶意提示注入方面,但 Anthropic 特意削弱了它的进攻性网络安全能力,并通过自动拦截高风险网络安全请求来做“实战安全测试”,为未来更强的 Mythos 级模型铺路。
* 产品层面,Opus 4.7 保持与 4.6 相同价格,但引入了更细粒度的 effort 控制(新增 xhigh)、更高效的长程推理 token 使用,以及任务预算、Claude Code 的 /ultrareview 和更智能的 auto mode 等配套能力,被多家头部公司实测为几乎各方面“无回退的直接升级”。
来源:https://www.anthropic.com/news/claude-opus-4-7
https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf
摘要:
* Claude Opus 4.7 在高级软件工程和长流程任务上,相比 4.6 有显著提升的新旗舰模型,用户已经在将“最难、最需要看紧”的编码工作放心交给它。
* 在复杂代码编写、CI/CD、异步自动化、多步代理工作上表现更稳、更少出错,并且会主动检查和验证自己的输出,比如为系统代码先做“证明”、在长时间任务中持续推进而不是中途放弃。
* 多模态方面,它支持更高分辨率图像输入(长边最高 2576 像素),能阅读更密集的截图、技术图表和化学结构,在文档推理、金融分析、法律审阅等“高价值知识工作”的第三方评测中达到当前 SOTA。
* 安全上,它整体与 Opus 4.6 类似甚至略优,特别是在诚实性和抵抗恶意提示注入方面,但 Anthropic 特意削弱了它的进攻性网络安全能力,并通过自动拦截高风险网络安全请求来做“实战安全测试”,为未来更强的 Mythos 级模型铺路。
* 产品层面,Opus 4.7 保持与 4.6 相同价格,但引入了更细粒度的 effort 控制(新增 xhigh)、更高效的长程推理 token 使用,以及任务预算、Claude Code 的 /ultrareview 和更智能的 auto mode 等配套能力,被多家头部公司实测为几乎各方面“无回退的直接升级”。
来源:https://www.anthropic.com/news/claude-opus-4-7
https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf