腾讯研究院最近发布的《AI coding非共识报告》,研究和讨论了以下7个非共识,值得推荐: * ⾮共识01:AI Coding的最佳产品形态是什么?——本地 VS 云端 * ⾮共识02:AI Coding产品选择什么模型?——⾃研 VS 第三⽅ * ⾮共识03:AI Coding给⽤⼾的价值有多⼤?——提效 VS 降效 * ⾮共识04:AI Coding产品理想付费模式是什么?——固定 VS 按需 * ⾮共识05:⼤企业推进AI Coding应⽤的态度?——激进 VS 渐进 * ⾮共识06:AI Coding对组织发展的影响?——裁员 VS 扩张 * ⾮共识07:AI Coding的未来市场格局是怎样?——专业 VS 普惠 原报告PDF(版权归腾讯研究院所有): 链接:pan.quark.cn 提取码:17wx
比 Scale AI 更值得关注的 AI 数据标注公司Surge AI。至今没有融资,去年营收达到 10 亿美元,已超过Scale AI。 摘要: * 数据标注领域的其他公司本质上只是「人力外包公司」,交付的不是数据,而仅仅是人力。Surge 定位其产品是:直接用于训练和评估 AI 模型的高质量数据,包括监督微调(SFT)数据、偏好数据等。 * 大语言模型竞技场,以及各种学术基准测试是「人工智能的一大祸害」。用户凭 5-10 秒的直觉选择,导致模型被训练得去优化排版、表情符号和回答长度等表面特征,牺牲了事实性和指令遵循能力,本质上是在训练模型产出「点击诱饵」。 * Edwin Chen 用「画边界框」和「写诗」来类比两类数据。前者数据质量天花板很低,而后者(如写诗、编程、数学证明)质量天花板极高,充满了主观性、创造力和智慧。生成式 AI 时代所需要的数据是后者。 * 你可以用 10%的资源和 10%的人力,建立一家完全不同的公司,但你的发展速度仍然可以快 10 倍,并且能生产出好 10 倍的产品。 来源:www.youtube.com
刚刚发布的《赢得竞争:美国AI行动计划》的重要文件。 计划列举的三大核心支柱: * 加速AI创新,这包括减少监管障碍、促进言论自由的AI系统以及鼓励开源AI开发; * 建设美国AI基础设施,重点在于简化数据中心和半导体制造设施的审批流程、升级电网并培养AI相关劳动力; * 以及引领国际AI外交和安全,致力于向盟友出口美国AI技术、对抗中国在国际AI治理中的影响力以及加强AI计算和半导体制造的出口管制。 来源:https://www.whitehouse.gov/wp-content/uploads/2025/07/Americas-AI-Action-Plan.pdf
字节Seed 团队刚刚发布的端到端同声传译大模型,准确率70%,时延在3秒以内。未来应该是翻译耳机和跨语言视频会议的标配。 Seed LiveInterpret 2.0 技术报告已公布,模型基于火山引擎对外开放,Ola Friend 耳机也将在 8 月底接入 Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。 技术报告:arxiv.org 项目主页:seed.bytedance.com
来自Lenny和Every创始人Dan Shipper的访谈。 Every 在探索 AI 的可能性方面走在行业最前沿,仅有15名员工,已经开发并上线了4款产品,同时发行每日新闻通讯,还发展了咨询业务,每个人都是六边形战士。 摘要: * 对AGI的新定义:agent可以一直开着,独立运行,且有利可图。就像青少年长大后可以自己生活。目前Claude code可以做到20-30分钟,就像一个两三岁的婴儿一样。 * Claude code是最被低估的非编程产品,跳过命令行,你可以发号施令,直接完成任务,而不是像cursor一样关注怎么写代码。比如整理分析会议纪要,模仿《战争与和平》的文风。 * 一家公司能否成功采纳 AI,唯一的预测指标是:CEO 自己是否每天使用 ChatGPT 等工具。 来源:www.youtube.com
Scott Wu 是 Cognition 的联合创始人兼首席执行官,该公司推出了世界上第一个 AI 软件工程师 Winsuft创始团队带着少数几个骨干抛弃了剩下的团队,到Google去了。上周五,Cognition 收购了 Windsurf被留下来的团队。 收购动机:我们Cognition的重点尤其在于核心工程和产品团队,而显然,Windsurf已经建立了一个了不起的市场推广团队,营销团队,财务运营团队。类似地,在产品方面,我们发现它实际上有一个非常自然的互补倾向。所以我们周五晚上主动联系了他们, 对Windsurf创始人的吐槽:作为创始人,有一项不成文的约定,即要与公司共存亡。无论好坏,在过去一年里,这种约定有所改变,坦白说,这有点令人失望。
来自Manus的联合创始人、技术负责人Peak(季逸超)分享了一篇技术博客:Context Engineering for AI Agents: Lessons from Building Manus。 * 我上一个创业公司的惨痛教训,我从头开始为开放信息提取和语义搜索训练模型。然后 GPT-3 和 Flan-T5 出现了,我的内部模型一夜之间变得无关紧要。 * Manus 将押注于上下文工程。我们能够在几小时内而非几周内推出改进,并使我们的产品与底层模型保持正交——如果模型进步是上涨的潮水,我们希望 Manus 成为那条船,而不是固定在河床上的柱子。 * 模型会盲目模仿上下文中的行为模式。Manus 通过引入结构化变化(如不同措辞或顺序),避免模型在长任务中陷入复制粘贴式幻觉。 来源:https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
OpenAI凌晨发布了ChatGPT Agent。产品增加,但OpenAI的官网和产品都越来越简洁了,感觉他们的产品力非常不错。 * 整合 Operator + Deep Research + ChatGPT 三个产品,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成 PPT 或表格等,并可在执行过程中实时展示相应步骤、接受临时中断和修改指令。 * 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果; * 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流; * Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展token。 来源:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/
来自前 OpenAI 员工 Calvin 的离职感想,原题为《Reflection on OpenAI》,回顾了自己在 OpenAI 工作一年多的经历。 摘要: * 扩张速度:我入职时公司刚过千人规模,一年后已突破三千人,而我的司龄竟排在前 30%。几乎所有管理层现在从事的工作与 2-3 年前都截然不同。 * OpenAI 有个与众不同的特点:所有工作——我是说所有——都在 Slack 上完成。这里没有电子邮件文化。 * OpenAI 采用了一个巨型单体代码库,主要使用 Python(尽管 Rust 服务正在增多,还零星分布着用于网络代理等功能的 Golang 服务)。 来源:https://calv.info/openai-reflections
最近Perplexity CEO阿拉温德·斯里尼瓦斯(Aravind Srinivas)与YC合伙人戴维·利布(David Lieb)的对谈。 览器和智能体才是我们真正的战略重点。我们看待智能体的方式是,它不完全是一个自主的AI,而是一个能够协助你的工具。我们希望打造一个多功能工具,既能查询信息,又能完成任务。无论你是在新标签页还是浏览网页,AI都会作为助手陪伴着你。我们希望将浏览器打造成认知操作系统,甚至像一个云平台,能够同时并行处理多个任务,这些任务可以异步运行。 新的浏览器将能够整合你的个人信息、邮箱、日历、亚马逊账户、社交媒体等内容,进行并行处理和研究,比如房产市场、股市等。这些都会在浏览器的后台完成,过去这些是无法实现的。而当Chrome的每个标签页都是独立进程时,我们就开始看到这样的可能性。你可以想象,每个查询或每条指令都能像独立进程一样运行,这正是我们接下来推出的新浏览器——Comet的核心功能。因此,我们目前所有的精力都集中在这一块。 来源: www.youtube.com https://mp.weixin.qq.com/s/gKH2jqtVexTGkbYLDB0T2Q
以色列独立开发者,真一人公司Maor Shlomo,开发了AI Coding工具——可以生成前后端+数据库的全栈无代码平台 Base44。6个月后以8000万美元卖给Wix公司。 原视频是Lenny和Maor Shlomo的对谈,时长91分钟。 摘要: * Aha Moment的关键是模型理解用户需求,用户能快速看到生成的应用,中间多一个步骤,惊喜感就会减弱。 * Base44 里用于写代码的模型,我会按不同任务搭配使用。比如 Claude 4 在开发应用初始阶段和 UI 设计方面很出色;Gemini 在处理复杂问题、设计算法,或者 Claude 4 陷入代码错误循环时表现优秀。我构建了一个流程,先分析用户提示,再分配给合适的模型,效果很好。 * 要保证至少 50% 的时间花在自己真正喜欢且擅长的事情上,这样每天才有动力工作。 来源:https://www.youtube.com/watch?v=L9KvV_UOs3A
昨天夜里 Kimi K2 模型发布,并同步开源。 Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。 在榜单方面,它在SWE Bench Verified(编程)、Tau2(智能体)、AceBench(工具调用)这三项基准测试中是开源模型表现最好的。 来源:https://mp.weixin.qq.com/s/2RPmHf_8KqIjXbY5jLdztQ
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧