海外独角兽
用声音传递最先锋的科技观察

Album
主播:
海外独角兽
出版方:
佚名
订阅数:
5,560
集数:
10
最近更新:
1个月前
播客简介...
全球投资平台拾象科技和开源研究平台「海外独角兽」出品的声音栏目。作为一个开源研究平台,「海外独角兽」在过去 3 年时间中研究并开源发布了近 200 篇深度研究,既有对 150+ 全球头部独角兽公司的深度分析,也有 Top-Down 对行业趋势的宏观研判,还包括我们走访硅谷、和全球头部科技公司从业者、投资人交流后的一线体感。 在这档全新的播客节目中,我们将延续海外独角兽开源精神,用声音传递最先锋的科技观察、链接全球优秀的大脑,抹平信息鸿沟。 欢迎订阅收听。 如果您想对我们有更多了解,可以微信搜索「海外独角兽」(id:unicornobserver)关注我们的公众号,获取更多深度研究、一线观察。
海外独角兽的创作者...
海外独角兽的音频...

E10 和斯坦福Biomni作者黄柯鑫聊AI Scientist:我想用AI Agent找到下一个10亿美元分子

随着 multi-agent 技术的发展,AI 可能不再只是“工具箱”,而是能自主完成跨学科复杂研究,从而推动科学发现走向全新模式。AI 实现科学和科研发现正在走进现实,AI scientist 已经在改写科研和药物开发范式: 今年 5 月,前谷歌 CEO Eric Schmidt 投资的 AI lab FutureHouse 推出了四个 AI scientist agent,一个月后,他们又宣布自己的 AI 系统 Robin 成功开发出了新的 dAMD 药物。就在两天前,OpenAI 也专门发布博客强调 AI 在生物学领域的能力正在不断增强。 本期内容我们邀请到了斯坦福大学 CS 博士生、AI scientist Biomni 核心贡献者黄柯鑫 一起聊 AI Scientist。柯鑫的学术背景兼顾了生物和计算机研究,有多篇论文发表在 Nature 系列期刊及 ML 顶会上。 Biomni 是斯坦福研究团队最近发布上线的一个生物医学通用 agent,它整合了 150 种专业工具、59 个数据库和 105 种软件,可以执行生物医学子领域的各种研究任务,打破了传统科研流程中碎片化、低效的壁垒,显著提高了科研效率。感兴趣的朋友可以在 biomni.stanford.edu 免费注册和使用。 在本期节目中,柯鑫结合自己的科研经历,分享了 AI scientist 的理念,为什么普通 agent 无法胜任科研任务,以及 AI for Science 领域正在发生的重要趋势等话题。 和 AlphaFlod 等生物医学领域的大模型不同,AI Scientist 通常指利用 AI 技术辅助或自动化科学研究过程的系统(或工具),能在数据分析、假设生成、实验设计等方面加速科学发现,这个概念既可以指 AI 作为辅助者,帮助科学家做研究,也可以指 AI 主动、独立承担科研任务。 AI Scientist 一直是头部 AI labs 的重要研究课题: 去年末,Transformer 作者 Llion Jones 参与创立的 Sakana AI 推出首个全自动 AI 科研系统,这个系统能够独立完成从创意生成、编码、实验执行到撰写科学论文的整个研究流程; 今年 2 月,Google 推出了基于 Gemini 2.0 构建的 multi-agent 系统 AI co-scientist,可以协助科研人员做各种繁琐的科研任务,包括科研选题、文献检索和实验设计。 今年 5 月,前 Google CEO Eric Schmidt 投资的 AI lab FutureHouse 推出了四款 AI scientist agent,一个月后,他们又宣布自己的 AI 系统 Robin 在 2.5 个月时间内发现了一种治疗干性年龄相关性黄斑变性(dAMD)的新候选药物。 02:08 AI+生物领域在发生什么? 09:07 AI scientist 和一般的 agent、AlphaFold 等底层模型有什么不同? 11:40 FutureHouse 声称用 agent 能开发了出新的 dAMD 药物 15:04 通用 agent 做不好 AI scientist 是因为缺少合适环境和专家 know-how 20:07 Biomni 的核心是打造了一个 agent 能够执行大量研究任务的环境 26:34 Biomni 是完全依赖 LLM 的能力来使用工具、软件和数据库的 31:55 AI Scientist 是使用 AlphaFold 的 Agent 系统 33:50 AI scientist agent 未来进步的方向是环境和应用落地 37:21 数据是生物领域最大的瓶颈 40:23 Biomni 的使用场景和目标用户有哪些? 43:05 AI Biology 的 benchmark 有很多探索方向 48:37 AI for Science 也会出现自己的 Cursor、 Devin 49:59 到 2050 年,一个 agent 可能就能创造价值十亿美元 Biotech 公司 53:16 Big Pharma 们的 AI 实践:左手 AlphaFold,右手 ChatGPT 57:12 AI scientist 的进展与 AlphaFold 这样的科技突破同样令人兴奋 >> AI4Science 图谱,如何颠覆 10 年 x 20 亿美金成本的药物研发模式 >> 巨头博弈下,agent 的机会和价值究竟在哪里? >> OpenEvidence,医疗领域诞生了第一个广告模式 Chatbot >> Flagship 创始人:AI for Science 的下一步是 Multi-agent >> Chai Discovery:OpenAI 投资的 AI4Sci 公司,AlphaFold 最快追赶者 >> Anthropic 创始人最看好的领域,AI for Science 深度解读 AlphaFold:Google DeepMind 开发的AI 模型,主要用于蛋白质结构预测,最早在2018年推出,2024年5月发布了 AlphaFold3,将技术扩展到蛋白质折叠之外,能以前所未有的精度准确预测蛋白质、DNA、RNA、配体等生命分子的结构及相互作用。它直接改变了上一代版本的核心架构,用“扩散模块”取代了上一代中非常重要的“结构模块”,标志着AlphaFold在技术上的又一次飞跃。 Biomni:斯坦福大学最近发布的一个生物医学领域的通用 AI agent,整合了 150 种专业工具、59 个数据库和 105 种软件,可以执行生物医学子领域的各种研究任务,打破了传统科研流程中碎片化、低效的壁垒,显著提高了科研效率; 干实验和湿实验:干实验通常指不直接操作生物材料的计算或理论工作,比如用计算机进行基因序列分析、建模模拟等;湿实验是指在实验室中直接操作生物样品(如细胞、蛋白质、DNA)进行的实验,如 PCR、培养、染色等。 CRISPR 技术:一种基因编辑工具,能在特定 DNA 序列上进行高效、精准的剪切和修改,广泛用于基因功能研究和疾病治疗开发。 Virtual cell:是使用多模态、生物与分子数据训练的神经网络模型,目的是在计算机环境中模拟细胞在不同状态下的行为与功能,为预测细胞动态和治疗响应提供虚拟实验平台。 FutureHouse:由前谷歌 CEO 埃里克·施密特支持的非营利组织,成立于 2023 年,目前已推出了一系列专门用于科学研究的 AI agent GWAS:Genome-Wide Association Study,即全基因组关联研究,这是一种通过比较大量个体的基因组变异与表型差异,寻找与疾病或性状相关的遗传位点的方法 CRISPR 实验:指应用 CRISPR-Cas 系统对特定 DNA 进行剪切、修饰或调控的实验,常用于基因敲除、基因敲入或基因表达调控,广泛应用于基础研究、疾病模型构建及潜在治疗开发 Michael Snyder Lab:斯坦福大学 Michael Snyder 教授领导的研究实验室,该实验室在个人化医疗、基因组学以及利用可穿戴设备进行大规模健康数据监测等前沿领域的研究中处于世界领先地位。 Scanpy:一个基于 Python 的开源分析工具包,专门用于处理和分析单细胞 RNA 测序(scRNA-seq)数据。它是生物信息学领域进行单细胞分析的主流软件之一,能够帮助研究人员对细胞进行聚类、识别细胞类型、发现新的生物学标记等。 Oracle:指理想化的、能为某个特定问题提供绝对正确或黄金标准的模型或系统。 pLDDT Score:这是 AlphaFold 2 输出的一个关键指标,表示模型对所预测的蛋白质结构中每个氨基酸残基位置的置信度,分数越高,代表模型对该局部区域的结构预测越有信心,结构也更可能可靠。 AlphaEvolve:这是 DeepMind 2025 年推出的进化式 coding agent,通过不断生成、评估和优化代码,能够自主改进算法并发现新方案,目前已在矩阵乘法、数据中心调度和芯片设计等领域实现突破。 Popper:这是柯鑫作为核心作者开发的一个 multi-agent 系统,设计灵感源于科学家 Karl Popper 的可证伪性原则,目的是自动化“假设生成-实验验证”的科学发现循环:由一个 agent 负责从海量数据中提出科学假设,另一个 agent 则负责设计实验来验证或证伪这些假设,从而大规模地挖掘潜在的科学洞见。

59分钟
99+
1个月前

E9 和DeepSeek-Prover作者辛华剑聊「形式化数学」:数学的工业化,Agentic AI,Benchmark

Era of Experience 这篇在 AI 社区讨论度很高的文章中提出:如果想实现 AGI,构建通用 Agent,就必须依靠“经验”,也就是模型和 Agent 在强化学习过程中自主积累的、人类数据集中没有的高质量数据。 DeepMind 的 AlphaProof 就被认为是这样一个典型案例,它靠 RL 算法自行“做题练习”,最终在数学领域,达到了超越人类的水平。以 AlphaProof 为开端,OpenAI 的 o1、DeepSeek 的 Prover-V2 等模型不断推动数学领域的进展,让数学证明成为了 AI 突破的新高地。 为什么 AI 研究中要特别关注数学证明能力?一方面数学领域的突破是模型能力提升的直接表现;另一方面,数学和代码类任务一样,不仅有严格的规则和格式,明确的推理路径,还有着对逻辑性、可验证性的高要求,这让数学类任务成为 RL 理想的训练环境。 这期内容我们请到了 DeepSeek-Prover 系列核心作者辛华剑,邀请华剑来和我们讲解数学和 AGI 之间的关系。华剑本科毕业于中山大学逻辑学,现在是爱丁堡大学人工智能方向的博士生,他目前专注于大模型在数学定理证明中的创新应用。 友情提示:这期内容同时涉及 AI 和数学领域的硬核干货,点击查看对谈全文文字内容 本期拓展阅读 * 86 条 DeepSeek 的关键思考 |Best Ideas 开源 * 对 DeepSeek 和智能下半场的几条判断 * The Second Half:一位 OpenAI 科学家的 AI 下半场启示录 * o3 深度解读:OpenAI 终于发力 tool use,agent 产品危险了吗? * Claude 4 核心成员:Agent RL,RLVR 新范式,Inference 算力瓶颈 讨论中被提及的相关名词: * DeepSeek Prover:DeepSeek Prover 是 DeepSeek 开发一系列开源数学推理大模型,专注于形式化定理证明,支持将自然语言问题转化为 Lean 4,并通过逻辑严谨的定理验证来解决数学问题。 * Ilya sutskever:是 OpenAI 联合创始人和前首席科学家,在 GPT 系列模型的开发中扮演了关键角色,Ilya 在 AI 研究领域有很强的影响力,业界认为他的技术品味很好,在技术方向的选择上具有很强的预判性。 * 形式化数学:形式化数学是指利用精确的符号语言来表达数学概念、定理及其证明,以消除传统数学推理中的模糊性,建立严谨且透明的框架。 * 人月神话:“人月神话”最初来源于软件工程领域,指的是一种普遍的误区,即错误地认为增加人手可以线性地提升项目进度。 * MATH 数据集:这是一个数学推理数据集,包含约 12500 道数学竞赛的题目,涵盖代数、几何、组合、数论等领域。它专为评估和提升 LLM 在逐步数学推理任务中的能力而设计。 * Autoformalization:自动形式化,指将用自然语言表达的数学内容(如定义、定理和证明)自动转换为可被计算机验证的形式化语言的过程。 * AlphaProof:AlphaProof 是由 Google DeepMind 开发的模型,以 Lean 语言自动生成数学定理的形式化证明,是第一个在 IMO 获奖的 AI 模型。 * Mathlib 数据库:这是基于 Lean 形式化证明系统构建的一个大型数学库,包含丰富的定义、定理和证明,用于支持数学知识的形式化与自动验证。 * 从“HumanEval” 向 “SWE-bench”跨越:HumanEval 测试模型写单个函数的能力,侧重小规模代码生成;SWE-bench 要求模型在完整代码库中修复 bug,考察跨文件和系统级改动能力。两者区别在于前者侧重原子级能力,后者重视工程级能力。 * DeepSeek Generative Reward Model:这是 DeepSeek 与清华大学提出的奖励建模方法,通过生成结构化文本反馈(如评价原则与点评)来替代传统数值评分,提升大 LLM 的推理与 RL 效果,同时支持推理时的灵活扩展与优化。

100分钟
99+
1个月前

E7 大模型非共识下,什么是 AGI 的主线与主峰?

本节目是全球投资平台拾象科技和开源研究平台「海外独角兽」共同出品的声音栏目。「全球大模型季报」是「海外独角兽」和「张小珺商业访谈录」的共同制作的 AI 领域观察栏目,以季度为单位,梳理行业 LLM 领域的重要信号,预测未来。 2025 Q1 中美 AI 领域都相当火热:DeepSeek R1 催化了 RL model 的热潮,头部模型厂商连续发布 SOTA reasoning models,推出 deep research;Manus 的火爆又把 Agentic AI 的讨论带到 AI 社区中心。本期内容是我们对 2025 年第一季度的回顾以及对 AGI 竞争格局、roadmap 的再思考: * 虽然过去 2 年模型格局、技术关键词不断变化,但 AGI 路线图上只有智能提升是唯一主线,智能本身就是最大应用,要围绕智能本身去投资和思考。模型公司形成壁垒的关键在于成为 Cloud 或 OS,未来模型和产品边界会逐渐模糊; * 今天最大非共识是 pre-training 空间还非常大,只有 pre-training 才能涌现出新能力,决定模型内在上限; * Coding 的意义不仅仅在于编程,而是实现 AGI 的最好环境,是模型的一只手,现实世界多数任务可用 Coding 表达,模型通过生成并执行代码来实现对外部信息的采集、处理和反馈; * ChatGPT 只是 AGI 的“前菜”,是 AGI 攀登的第一站,Agentic AI 才是更加关键的未来; * Agent 落地最关键的三个能力是 long context reasoning、Tool-use、Instruction following; …… 本期内容文字链接

117分钟
99+
1个月前

E8 专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻

本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈,由「海外独角兽」和「张小珺商业访谈录」的共同制作, 张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。 一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型领域的进步极快,但多模态生成和理解的难度被低估了: * 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习; * 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确,数据质量有限,生成模块往往无法反向影响理解模块等; * 模型 scale 到万亿参数后,在文本生成和知识问答能力增强的同时,推理能力,尤其是数学,却呈现出能力随规模增长反而下降的现象; * 大模型出现推理能力下降的原因在于大模型在思考时,倾向跳步,next token prediction 框架天然更关注压缩率而非推理精度,这在任务目标与压缩率存在差异时会出问题; * Rule-based RL 可通过直接优化任务目标,迫使模型选择可靠推理路径,在推理任务中抑制跳步、强化稳定的思维路径; * o1 范式的技术本质在于激发出 Meta CoT 思维链:允许模型在关键节点反悔、重试、选择不同分支,使推理过程从单线变为图状结构。 …… 访谈文字版全文链接。

145分钟
99+
1个月前
海外独角兽的评价...

空空如也

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧