OpenAI凌晨发布了ChatGPT Agent。产品增加,但OpenAI的官网和产品都越来越简洁了,感觉他们的产品力非常不错。 * 整合 Operator + Deep Research + ChatGPT 三个产品,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成 PPT 或表格等,并可在执行过程中实时展示相应步骤、接受临时中断和修改指令。 * 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果; * 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流; * Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展token。 来源:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/
来自前 OpenAI 员工 Calvin 的离职感想,原题为《Reflection on OpenAI》,回顾了自己在 OpenAI 工作一年多的经历。 摘要: * 扩张速度:我入职时公司刚过千人规模,一年后已突破三千人,而我的司龄竟排在前 30%。几乎所有管理层现在从事的工作与 2-3 年前都截然不同。 * OpenAI 有个与众不同的特点:所有工作——我是说所有——都在 Slack 上完成。这里没有电子邮件文化。 * OpenAI 采用了一个巨型单体代码库,主要使用 Python(尽管 Rust 服务正在增多,还零星分布着用于网络代理等功能的 Golang 服务)。 来源:https://calv.info/openai-reflections
最近Perplexity CEO阿拉温德·斯里尼瓦斯(Aravind Srinivas)与YC合伙人戴维·利布(David Lieb)的对谈。 览器和智能体才是我们真正的战略重点。我们看待智能体的方式是,它不完全是一个自主的AI,而是一个能够协助你的工具。我们希望打造一个多功能工具,既能查询信息,又能完成任务。无论你是在新标签页还是浏览网页,AI都会作为助手陪伴着你。我们希望将浏览器打造成认知操作系统,甚至像一个云平台,能够同时并行处理多个任务,这些任务可以异步运行。 新的浏览器将能够整合你的个人信息、邮箱、日历、亚马逊账户、社交媒体等内容,进行并行处理和研究,比如房产市场、股市等。这些都会在浏览器的后台完成,过去这些是无法实现的。而当Chrome的每个标签页都是独立进程时,我们就开始看到这样的可能性。你可以想象,每个查询或每条指令都能像独立进程一样运行,这正是我们接下来推出的新浏览器——Comet的核心功能。因此,我们目前所有的精力都集中在这一块。 来源: www.youtube.com https://mp.weixin.qq.com/s/gKH2jqtVexTGkbYLDB0T2Q
以色列独立开发者,真一人公司Maor Shlomo,开发了AI Coding工具——可以生成前后端+数据库的全栈无代码平台 Base44。6个月后以8000万美元卖给Wix公司。 原视频是Lenny和Maor Shlomo的对谈,时长91分钟。 摘要: * Aha Moment的关键是模型理解用户需求,用户能快速看到生成的应用,中间多一个步骤,惊喜感就会减弱。 * Base44 里用于写代码的模型,我会按不同任务搭配使用。比如 Claude 4 在开发应用初始阶段和 UI 设计方面很出色;Gemini 在处理复杂问题、设计算法,或者 Claude 4 陷入代码错误循环时表现优秀。我构建了一个流程,先分析用户提示,再分配给合适的模型,效果很好。 * 要保证至少 50% 的时间花在自己真正喜欢且擅长的事情上,这样每天才有动力工作。 来源:https://www.youtube.com/watch?v=L9KvV_UOs3A
昨天夜里 Kimi K2 模型发布,并同步开源。 Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。 在榜单方面,它在SWE Bench Verified(编程)、Tau2(智能体)、AceBench(工具调用)这三项基准测试中是开源模型表现最好的。 来源:https://mp.weixin.qq.com/s/2RPmHf_8KqIjXbY5jLdztQ
贴几张现场图: 来源:https://www.youtube.com/watch?v=SFzrcPwvrBw
知名AI科学家、World Labs创始人李飞飞在YC的访谈。 摘要: * 我的整个职业生涯都在追逐那些非常困难、近乎妄想的问题……那种勇气,那种拥抱困难的无畏精神,并着手去做,全身心投入,以任何你想要的方式去解决它,这确实是成功人士的核心特征。” * 从根本上说,语言是一维的……世界远比这复杂。首先,真实世界是3D的。对我来说,没有空间智能的通用人工智能(AGI)是不完整的。” * World Labs的应用场景广阔,从创意设计(设计师、建筑师、艺术家)到机器人学习,再到营销、娱乐乃至元宇宙。 来源: https://www.youtube.com/watch?v=_PioN-CpOP0
Isomorphic Labs 成立于 2021 年, DeepMind 生命科学团队原班人马创立,旨在用深度学习算法加速药物设计。 “Isomorphic” 的寓意是生物系统有着可以被算法映射的共形结构。 今年3月获得 Thrive Capital 、Google Ventures、Alphabet等公司的6亿美元投资。 来源:https://mp.weixin.qq.com/s/-YHS_dIDkD7XZkkg3YCI0w
试图聊聊设计领域领头羊Figma这几天提交的招股书精华。 关键数据: 来源:https://www.sec.gov/Archives/edgar/data/1579878/000162828025033742/figma-sx1.htm
GenSpark 联合创始人兼 CTO 朱凯华(Kay Zhu)在美国旧金山VB Transform 2025大会现场的演讲。题目是 “Less Control, More Tools” 。 Kay公布的一些运营数据: * 45 天实现 3600 万美元年化经常性收入(ARR); * 20 人核心团队,0 元广告投放,产品口碑自然增长; * 10 周内发布 4 款超级代理产品,累计用户突破 500 万。 “我们其实没有传统意义上的产品经理。唯一的PM是我们的CEO Eric”。 来源:https://venturebeat.com/ai/whats-inside-genspark-a-new-vibe-working-approach-that-ditches-rigid-workflows-for-autonomous-agents/
本周六临时有事,没去成Cursor中文社区在北京的第一场活动。听说现场很火爆,友情转发官方的干货总结,做了一个podcast,没参加的朋友来弥补一下~
2025年苹果全球开发者大会上(WWDC 2025),苹果重磅发布了其全新“跨平台设计语言” —— Liquid Glass(液态玻璃),并将其称为“自iOS7以来最大的UI更新”。 摘要: * 用户界面的设计史,宛如一个在具象与抽象、繁复与简约之间来回摆动的钟摆。每一次摇摆,都与技术水平、用户认知和时代审美紧密相连。 * 液态玻璃并非简单模仿物理玻璃,而是以一种“数字原生”的方式模拟其光学特性。它生成轻盈、可交互的界面层,这些层级会根据环境和交互持续调整其形态。 * 苹果通过在所有平台上统一命名(如 iOS 26)和统一设计语言,正构建一个前所未有内聚和同步的生态系统。Liquid Glass 在其中扮演了串联起所有体验的“视觉粘合剂”。 来源: https://www.apple.com/newsroom/2025/06/apple-introduces-a-delightful-and-elegant-new-software-design/ https://mp.weixin.qq.com/s/lOjhNpPnABzc7dKqOZ3g5A
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧