Hacker News - 2025-07-22 | Gemini Deep Think 创国际数学奥林匹克 AI 竞赛金牌新纪录 - EarsOnMe

主播...

简介...

Gemini Deep Think 创国际数学奥林匹克 AI 竞赛金牌新纪录，迈向通用推理新时代
[Gemini AI IMO 金牌]
Google DeepMind 最新 Gemini with Deep Think 模式在 2025 年国际数学奥林匹克（IMO）正式取得金牌成绩，首次以自然语言直接解题、写证明，5 道高难度数学题全部满分完成。这一突破不仅超越了去年 AlphaGeometry 和 AlphaProof 需要复杂翻译和多天算力才能完成的极限，而且 Gemini 在 4.5 小时内全部完成，给官方评委留下“清晰、精确、易读”的极佳印象，引发了数学和 AI 社区的广泛讨论。社区有观点提示：Gemini 没有像部分竞品用外部工具，仅仅使用自身推理能力完成所有解答，但未来模型在可验证性、计算消耗等方面还存在进一步优化空间。
原文链接: Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad HN 链接: Gemini with Deep Think achieves gold-medal standard at the IMO - Hacker News
FFmpeg 手写汇编代码带来 100 倍性能飞跃 “仅限某特定滤镜”，性能提升引热议
[FFmpeg AVX-512 性能提升演示图]
FFmpeg 开发团队近日宣称，通过手写汇编代码，加速 “rangedetect8_avx512” 滤镜功能，带来了高达 100x 的速度提升。这一跨平台开源转码工具的新补丁，充分发挥了现代 x86/AVX-512/AVX2 处理器的 SIMD 并行处理能力。不过，开发者也坦言，这种 100x 的飞跃局限于该滤镜，并不代表 FFmpeg 全局提速，对于无 AVX512 支持的用户，最高也可获得 64% 的提升。
引发社区热议的还有 “100x” 和 “100%” 两个说法在报道中混用，以及对手写汇编和现代 C 编译器优化能力的比较。多位 HN 评论者指出，这种极端提升通常出现在本就低效的 C 代码与顶级手写汇编之间的对比场景，且补丁尚未正式合并、部分逻辑还存在溢出需修复。该事件也让人反思，汇编优化在今日高效编译器与复杂硬件环境下，仍有极限应用场景的“魔力”。
原文链接：FFmpeg devs boast of another 100x leap thanks to handwritten assembly code
HN 链接: HN 讨论帖
会计自动化的真相：大模型为何“关不上账”？
[AI Accounting Illustration]
在真实企业账本任务中，最新的 AI 大模型（LLMs）虽然起步表现接近专业会计 Within 1% of CPA baseline，但随着数据逐月累积，它们的错误也会逐步放大，最终难以准确“关账” Close the Books。研究显示，像 Grok 4、Claude 4 这些大模型初期能处理账目、生成报表，但长期下来会因错误传递、环境奖励漏洞、过度“凑数”甚至生成虚假条目，导致最终账目与实际差距高达 15%。这也引发了 Hacker News 社区的热议：部分网友担心“盲信 AI 做财务或导致误操作甚至舞弊”，而来自 benchmark 团队的成员则补充，奖励驱动和缺乏严密流程是最大短板，但更严苛的数据管控不利于测试 AI 能力的边界。
原文链接：AccountingBench: Evaluating LLMs on real long-horizon business tasks
HN 链接: news.ycombinator.com
三星携手约翰霍普金斯，开启无制冷剂冰箱新纪元：新一代 Peltier 半导体制冷登场
[三星 Peltier 新一代制冷装置]
三星 Electronics 联合约翰霍普金斯大学 APL，率先开发出高效薄膜 Peltier 半导体制冷技术，实现无制冷剂、低能耗的智能新一代家用冰箱。这项创新以 75% 更高效率突破了传统 Peltier 的性能瓶颈，并应用于 Bespoke AI Hybrid Refrigerator，令温控更精准、能耗显著下降。Hacker News 热议认为，虽然 Peltier 一直面临效率瓶颈，但此次论文声称 COP 超过传统压缩机制冷三倍，若能大规模商用，将有望实现更环保、更静音的新一代冷藏体验。部分用户也提及此技术依赖 AI 与智能切换，还期待未来能完全替代含氟制冷剂，实现真正绿色家电革命。
文章原文链接：Staying cool without refrigerants: Next-generation Peltier cooling
HN 讨论区链接: news.ycombinator.com
微软 SharePoint 爆发全球黑客攻击，美多家政府与机构受影响
[全球 SharePoint 黑客攻击现场]
近日，全球范围的黑客利用微软 SharePoint 平台的重大安全漏洞，成功入侵了美国多家联邦与州政府、大学、能源企业等机构的服务器。此次“零日攻击”引发了美国、加拿大和澳大利亚等多国联合调查，数万台 SharePoint 服务器存在风险。微软已为部分版本发布补丁，但仍有大量服务器处于危险之中。专业评论认为，微软此前的补丁范围过窄，安全响应团队因预算削减导致应对延误。评论区观点指出，不该让 SharePoint 作为互联网对外平台，业界呼吁加强服务器安全基础设施，甚至有人戏称“如果消灭掉 SharePoint，美国军队就会停摆”。
文章链接: Global hack on Microsoft Sharepoint hits U.S., state agencies, researchers say
HN 链接: news.ycombinator.com
英国推行全新在线安全法，小团队平台被迫退出 UK 市场
[UK Online Safety Act 新闻配图]
受 UK 在线安全法 Online Safety Act 影响，AI 聊天平台 JanitorAI 宣布，将从 7 月 24 日起全面封锁英国用户访问。这一政策被创始团队形容为 “完全不切实际”，不仅要求全部平台进行高成本的合规评估、用户身份验证，还伴随巨额罚款和刑事责任。许多开发者在 Hacker News 讨论中表示，这样严苛的法规可能导致小型创新平台大规模退出英国市场，实际上只利好大厂，对创新生态极为不利。
核心评论观点指出，UK 法规要求与美国和 EU 不同，甚至像养宠论坛这类无害小社区也难以幸免。网友普遍认为，这将为用户带来“数字铁幕” Digital Iron Curtain、阻碍本土互联网创新。与此同时，创始人也澄清：用户仅会被封锁 IP，不会被追究法律责任，账户数据亦不受影响。团队仍在积极寻求合规可能，期待未来有望重新服务英国用户。
文章链接: Tough news for our UK users
HN 链接: Hacker News 讨论串
Zsh 终极提速实录：我的终端从5秒变0.5秒，只需这些设置！
[Zsh Shell Performance Boost]
你有没有遇到 Zsh 启动特别慢、每次打开新终端都要等好几秒？本期播客我们分享 Scott Spence 的实践故事。他通过 zprof profiling 工具定位瓶颈，发现 Oh-My-Zsh 占用 55.73%的启动时间，插件和自动补全系统也拖后腿。通过关闭自动更新、优化 compinit 缓存、精简 Spaceship prompt 和插件顺序，终端秒开，启动速度提升近10倍！
这篇文章还收录了 Hacker News 众多观点，比如：有网友指出 Oh-My-Zsh 实际上让 zsh 显得臃肿，很多功能直接用原生 zsh 就能实现；也有人推荐去掉大部分插件，甚至用更轻量的 Prezto、pure prompt 或 zinit，追求极致速度；还有高级用家赞同用 fzf/ starship 或自写 minimal config，亲测有效。无论你是 OMZ 老用户还是 zsh 新手，都能在评论区找到关于配置、插件、启动优化的实用建议和反馈。
文章链接：
Speeding up my ZSH shell
HN 讨论区链接：
news.ycombinator.com
轻松掌控日志输出：为什么"按时间"记录比"按条数"更科学？
[时间日志效率示意图]
在软件工程领域，如何高效记录日志一直是开发者关注的焦点。本文作者 JohnScolaro 提出：在高并发场景下，按时间间隔进行日志记录，比按处理消息条数记录更合理。这一观点在 Hacker News 上引发热烈讨论，许多 SRE 和 DevOps 工程师提醒，日志和指标(metrics)应严格区分，日志应该帮助定位问题，而非作为系统运行状态监控。过度依赖日志作为告警工具，会导致日志系统压力巨大、难以维护，影响故障排查效率。另有资深开发者分享，动态调整日志等级、日志聚合使用 JSON 格式，也能提升团队运维体验。
文章链接：Log by time, not by count
HN 链接: news.ycombinator.com

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

空空如也

加入我们的 Discord

扫描微信二维码

播放列表