AI观测站-AI Observatory - 节目列表

英伟达抢HBM4,企业把裁员推给AI

英伟达抢HBM4,企业把裁员推给AI

AI观测站-AI Observatory

🧠 本期要点 1) 英伟达CEO黄仁勋首次确认三星电子、SK海力士和美光获准为Vera Rubin平台供应HBM4内存,但认证和良率尚未锁定。 2) 韩国股市Kospi今年近乎翻倍,三星电子和SK海力士上月市值均超1万亿美元,黄仁勋在Computex上强调韩国制造能力与机器人合作。 3) 华为、河套机构、哈工大深圳和深圳大数据研究院用国产芯片对DeepSeek模型完成全参数后训练,提升了模型自我反思和调整能力。 4) OpenAI发布Codex桌面应用,支持并行处理多线程和Git版本管理,CEO Sam Altman称ChatGPT可构建网页应用并升级记忆功能。 5) Anthropic的Claude Code页面显示,Ramp公司接入后事故调查时间减少80%,非工程团队可用自然语言查询数据仓库。 6) 美国5月裁员超9.7万人,AI被列为裁员主因的比例达40%,前五个月归因AI的裁员达87714人,高于2025年全年。 7) 机器人公司GENISOM AI在ICRA 2026展示可部署平台,自2023年12月成立以来生产交付超1万台机器人,定位类似宇树科技。 8) 英伟达在底层供给上锁定内存供应商,华为推动国产芯片从推理转向后训练,OpenAI和Anthropic重写软件工作流程。 9) 云厂商和模型公司关注算力供应链的认证、良率和交付,员工面临公司用AI重新计量岗位交付量的风险。 10) 机器人竞争从演示视频转向生产、交付和维护,制造企业关注售后、备件和软件升级的可行性。 ⏱ 时间线 00:03 一边是英伟达把下一代内存供应商点名,一边是公司把裁员理由越来越多写成AI。 00:23 先看最底层的供给。 00:49 这件事重要,不只是因为三家公司拿到了入场券。 01:12 边界要讲清楚:获准供应不等于三家公司未来份额已经锁死,也不等于 HBM4 明天就能大规模出货。 01:39 第二条转到中国。 02:07 报道里的一个说法很有意思:过去国产算力更多用于推理,好比模型收到问题、给出答案的一条单行道;这次后训练让模型能自我反思和调整,计算和通信需求会成倍增加。 02:43 第三条看软件入口。 03:13 同一时间,OpenAI 首席执行官 Sam Altman 在 X 上说,ChatGPT 已经可以构建并发布网页应用,也宣布记忆功能当天开始升级。 03:51 第四条接着看 Anthropic,一家头部模型公司。 04:24 这里的80%是一个客户案例,不是所有公司的平均提升,也不代表接入以后就没有安全和权限成本。 04:55 第五条说一个更贴近普通人的数字。 05:31 这个数字冲击很强,但不能简单读成“AI已经亲手替掉了87714个岗位”。 05:59 最后看机器人。 06:25 这条来源是行业媒体的赞助内容,所以不能把它当成独立审计过的出货报告。 06:56 今天这些消息串起来,AI产业正在往两个方向同时走。

7分钟
24
21小时前
2026年6月:AI撞上物理瓶颈,电光钱三关难过

2026年6月:AI撞上物理瓶颈,电光钱三关难过

AI观测站-AI Observatory

AI的爆炸式增长正面临物理和财务上的多重瓶颈。其中,数据中心日益增长的电力消耗已达到惊人水平,促使AI巨头寻求虚拟电厂和核能解决方案。同时,AI集群对数据传输的需求超越铜缆极限,使得光互连成为关键投资方向。此外,巨大的基础设施投入导致AI领域并购冷却,改变了初创公司的发展路径。 电力与能耗瓶颈 * 全球数据中心用电量已超过除10个国家外所有国家的总和(去年为448太瓦时),预计到2030年将翻倍。 * Google与Voltus公司签订虚拟电厂协议,通过聚合分散能源获取100兆瓦电力,并承诺支付100%电费。 * AI公司因电网扩容周期长(5-10年)而无法等待,Google和亚马逊等正探索核能,Google已与Kairos Power签约采用小型模块化反应堆(SMR)。 数据传输与光互连 * 英伟达CEO黄仁勋指出“光比铜好”,认为光纤是未来AI数据中心架构的关键。 * 英伟达已投资45亿美元于光通信公司(Lumentum, Coherent, Corning),以解决AI集群日益增长的数据量瓶颈。 * 铜缆在短距离、机柜内部仍有优势,但长距离或高带宽需求下必须使用光纤。 * AI的瓶颈已从GPU算力转向内存带宽和光互连。 资金投入与行业格局 * 四大云厂商(Google、微软、亚马逊、Meta)预计今年将在AI基础设施上投入近6000亿美元。 * AI领域的并购市场趋冷(2024年仅7笔),大厂倾向于将资金投入自身基础设施建设而非外部收购。 * 这对AI初创公司意味着退出路径变窄,可能需要寻求更大的战略投资或独立上市。

5分钟
11
22小时前
Google抢电,台积电警告芯片缺口

Google抢电,台积电警告芯片缺口

AI观测站-AI Observatory

🧠 本期要点 1) PitchBook 6月4日报告显示,Google、Microsoft、Amazon和Meta四家美国科技巨头2026年AI基础设施支出预计达6000亿美元。 2) Google于6月4日被POWER Magazine报道在得州狭长地带启动超1吉瓦(100万千瓦)数据中心与发电综合体,其3月签署白宫费率保护承诺。 3) 联合国大学6月4日报告指出,全球数据中心用电量已超过除10个国家外的所有国家;其二氧化碳排放量与阿根廷相当;预测未来四年数据中心用电、用水及污染将翻倍。 4) 台积电(TSMC)6月4日被Yahoo Finance援引警告称,芯片供应在未来几年内无法满足AI需求;其4月上调全年销售指引,资本开支或逼近560亿美元上限。 5) Anthropic工程博客《How we contain Claude across products》披露,12个月前公司拒绝授予Claude关闭内部服务的权限。 6) Anthropic强调,随着Claude承担更多任务,权限控制重点转向限制单次错误损害范围;风险评估聚焦于出错概率与潜在影响边界,而非仅模型回答能力。 7) Generalist于6月4日获融资4亿美元。 8) Microsoft持有OpenAI近30%股权;Meta向Scale AI投资143亿美元;PitchBook将后者视为基础设施保障型投入,而非普通并购。 9) Google在PJM电力市场部署100兆瓦虚拟电厂项目;新进展是将机房、发电与电力调度整合进同一设计框架,而非仅采购电力。 10) 全球数据中心用电统计涵盖云计算、企业IT与AI扩张整体;AI正将后台成本问题推向电网运营商、水资源管理者及社区居民等公共决策层面。 ⏱ 时间线 00:03 当人工智能公司不再只抢模型跑分,而是抢电、抢芯片、抢安全边界,谁会先被挤出牌桌? 00:24 先看资本怎么投票。 00:52 这个对比很有意思。 01:17 口径要讲清楚:6000亿美元是预测支出,不是已经花完的钱,也不是AI收入。 01:41 第二条接着看电。 02:09 需求响应翻成人话,就是电网紧张时,数据中心可以把一部分计算任务错开,或者临时降负荷。 02:30 边界也要说明。 02:54 第三条仍然是机房,但换一个角度。 03:19 这个数字听起来很冲击,但它不是只统计生成式AI,也不是说所有数据中心明天都会翻倍。 03:46 第四条看芯片供给。 04:09 这里的560亿美元是资本开支预测上限,不等于已经变成新增产能。 04:47 第五条转向智能体。 05:13 听起来像一次很激进的放权,但Anthropic强调的不是“随便放开”,而是限制损害范围。 05:48 最后看一笔融资。 06:12 融资金额不等于收入,也不等于产品已经大规模商业化。 06:47 今天这些消息合在一起,AI产业正在从“谁更聪明”,走向“谁更能承担运行后果”。

7分钟
36
1天前
2026年6月:5.3万亿军备,欧洲要单干

2026年6月:5.3万亿军备,欧洲要单干

AI观测站-AI Observatory

全球四大科技巨头计划在未来五年内投入5.3万亿美元建设AI基础设施,主要通过私人基金和REITs等方式融资,引发了对AI应用盈利能力和成本转嫁的担忧。与此同时,欧盟为应对外部供应商风险,推出了“技术主权”计划,旨在实现芯片和云服务的自主可控;而AI需求也正推动HBM市场蓬勃发展,并导致消费级内存价格飙升。最终,消费者、中小企业及部分云厂商可能将为这笔巨额投资及其可能产生的“沉没成本”买单。 全球AI基础设施的巨额投资 * 投资规模与预测上调: 四大科技公司计划未来五年投入5.3万亿美元用于AI基础设施建设,该预测由高盛从4.5万亿上调,其中2026年一年将支出7250亿美元。 * 创新融资模式: 私人基础设施基金和房地产信托基金(REITs)预计将入场,将数据中心视为“数字房地产”进行融资。 * 市场担忧与成本转嫁: 对AI应用能否赚回巨额投资存在疑问,且算力租赁价格上涨趋势可能将高昂成本转嫁给中小企业。 欧盟的技术主权战略 * 政策框架: 欧盟发布“技术主权”一揽子计划,核心包括《云与AI发展法案》和《芯片法案2.0》。 * 战略目标: 旨在到2030年将欧盟半导体全球市占率从10%翻倍至20%,并培育本土冠军企业,实现芯片自主。 * 驱动因素: 核心动机是规避外部供应商可能设置的“kill switch”风险,避免在关键技术上被“卡脖子”。 * 潜在挑战: 自主生产可能导致更高的成本,进而推高欧洲本土AI服务的价格。 AI需求对内存市场的影响 * HBM市场爆发: 高带宽内存(HBM)需求激增,SK海力士计划五年内HBM产能翻倍,SK海力士、三星、美光三家HBM巨头均已进入万亿市值俱乐部。 * 消费级内存受挤压: AI对算力的巨大需求正在吞噬消费级内存产能,导致DDR5等普通内存价格显著上涨(例如DDR5涨至375美元),PC玩家正间接为AI买单。 * 供需持续紧张: 尽管HBM产能持续扩张,但AI需求增长可能更快,预计供不应求的局面仍将持续。 巨额投入的潜在风险与成本承担 * 最终买单方: 消费者、初创公司和过度杠杆化的二线云厂商可能成为这笔巨额AI投资的最终承担者。 * 沉没成本风险: 5.3万亿美元的投入中,一部分资金可能在未来成为沉没成本,例如2028年回看,高价抢购的GPU可能贬值一半。 * 主要受益者: 生产AI所需硬件的“卖铲子”公司,如NVIDIA和SK海力士,将是本轮投资中的主要盈利者。

4分钟
39
1天前
弱模型组团,为何能打败高手?随机森林与GBDT

弱模型组团,为何能打败高手?随机森林与GBDT

AI观测站-AI Observatory

本期AI播客深入探讨集成学习的奥秘,解答为何一群看似普通的弱模型组合后能超越单一强模型。节目将聚焦随机森林和GBDT等技术,解释它们如何通过协同工作降低偏差和方差,并通过丰富的案例展现其在金融风控、广告营销等实际业务场景中的强大应用与独特价值,强调模型不仅要准确,更要能稳定解决实际问题并可被负责任地使用。 集成学习:弱模型如何协同制胜 * 核心理念: 多个能力不强的“弱学习器”组合,通过协同作用超越单一强模型。 * 弱学习器定义: 单个能力有限,但比随机猜测更优的模型(如决策树)。 * 生活类比: 类似于医生会诊、老师批卷,通过集合众智提升决策稳定性和准确性。 * 目标: 理解组合模型在真实业务中的强大应用和价值,而非背诵算法定义。 Bagging与Boosting:修正方向与稳定情绪 * 偏差与方差: 偏差是模型方向性错误,方差是模型预测不稳定。 * Bagging(代表:随机森林): 通过对同一数据重复抽样训练多个模型并平均结果,主要用于降低方差,使预测更稳定。 * Boosting(代表:GBDT): 迭代训练,后续模型专注于修正前一个模型的错误(残差),主要用于降低偏差,逐步提升准确性。 * 随机森林特点: 每棵树只看部分样本和特征,通过多数投票或平均结果,实现稳健预测。 GBDT及其工程优化:从补课到实战利器 * GBDT核心: 像“批改错题本”,通过一棵树接一棵树地学习前一个模型的残差(真实值与预测值之差),逐步修正错误。 * XGBoost: “工程加强版GBDT”,通过正则化、并行优化、缺失值处理等提升训练速度、稳定性及防过拟合能力。 * LightGBM: 专为大规模数据设计的GBDT工具,在速度和效率上更优,常用于工业界大数据场景。 * 应用场景: Kaggle竞赛、风控、广告、反欺诈、客户流失、营销响应等表格数据任务中表现卓越。 生产落地:超越准确率的评估与挑战 * 生产场景案例: 金融风控(违约概率)、广告点击率、反欺诈等,模型输出风险排序而非好坏判断。 * 评估指标: 除准确率外,更看重AUC、KS、Lift、利润增益、通过率变化等业务指标。 * 上线难点: 数据延迟、分布漂移、样本偏差、特征穿越、合规限制、成本收益等。 * 特征穿越: 模型偷看未来数据导致离线效果好,上线即失效的问题。 模型解释性与商业价值:理解而非盲从 * 特征重要性: 揭示模型认为哪些变量最有用,但强调“重要不等于因果关系”。 * SHAP: 解释单次预测中各变量的贡献方向和大小,但仅解释模型判断,不等于解释真实世界。 * 反常识观点: 老模型不一定过时,准确率高不等于能上线,解释性有时比复杂度更重要。 * 判断力提升: 评估AI模型价值应关注其能否解决实际问题、数据应用、评估方式、业务闭环、解释性与责任。

18分钟
47
2天前
高盛抬高机房账,欧盟追赶芯片云

高盛抬高机房账,欧盟追赶芯片云

AI观测站-AI Observatory

🧠 本期要点 1) 高盛将Meta、微软、亚马逊和Alphabet四家云巨头2025-2030财年资本开支预测上调至5.3万亿美元,今年可能达7250亿美元。 2) SK海力士计划未来五年将晶圆产能翻倍,今年Q1在全球HBM市场份额为58%,三星和美光各占21%。 3) Google资助一个100兆瓦虚拟电厂项目,服务PJM电力市场,通过调度用户负荷提升电网灵活性。 4) 欧盟推出Cloud and AI Development Act和Chips Act 2.0,目标到2030年将半导体市场份额翻倍至20%。 5) Google发布Gemma 4 12B,一个约120亿参数的多模态模型,可统一处理文字和图像。 6) 投行Oppenheimer认为SpaceX的Starlink卫星宽带将冲击美国1.6万亿美元通信行业,上调2035年空间经济预测至8000亿美元。 7) AI,也就是人工智能,今天最真实的关键词,是配套。不是只看谁发了新模型,而是看钱从哪里来,内存谁来供,电网怎么扛,欧洲能不能减少依赖,普通用户又会从哪里接上这些能力。 8) 路透社和商业媒体Business Insider在6月3日报道,高盛把Facebook母公司Meta、微软、亚马逊和Google母公司Alphabet四家超大云厂商。 9) 路透社6月2日报道,SK海力士计划在未来五年把晶圆产能翻一倍。SK海力士是韩国主要存储芯片公司,也是英伟达高带宽内存的重要供应商。 10) 这个数字不等于未来五年的出货份额已经锁死。晶圆产能翻倍,也要等设备、良率、封装和客户验证一起跟上。 ⏱ 时间线 00:03 AI,也就是人工智能,今天最真实的关键词,是配套。 00:27 路透社和商业媒体Business Insider在6月3日报道,高盛把Facebook母公司Meta、微软、亚马逊和Google母公司Alphabet四家超大云厂商,从2025财年到2030财年的资本开支预测,上调到5.3万亿美元。 01:04 昨天我们讲过Alphabet自己计划用800亿美元股权融资扩AI基础设施。 01:37 第二条看内存。 02:03 这个数字不等于未来五年的出货份额已经锁死。 02:39 第三条接着看电。 03:13 听起来像电力行业细节,但它会影响AI服务的稳定性和价格。 03:42 第四条转到欧洲。 04:19 边界也要说清楚:这是一组产业政策和立法推动,不是欧洲明天就能替换美国云厂商和亚洲芯片供应商。 04:51 第五条看模型。 05:15 这还不能说明Gemma 4 12B已经可以挑战最强闭源模型。 05:43 最后看通信入口。 06:17 这里的口径尤其重要:这是投行预测,不是SpaceX自己的收入指引;“冲击1.6万亿美元行业”也不等于Starlink已经拿走这些市场。 06:49 今天这几条新闻放在一起,AI竞争越来越像一场配套能力考试。

7分钟
25
2天前
2026年6月:AI烧钱大战,谁先眨眼谁出局

2026年6月:AI烧钱大战,谁先眨眼谁出局

AI观测站-AI Observatory

2026年,AI行业正经历一场激烈的“烧钱大战”,核心问题在于巨大的资本投入与尚未明朗的回报。Alphabet斥巨资投入AI基础设施建设,OpenAI拓展至AWS平台,同时Anthropic启动IPO,这些都反映出AI巨头在激进投入与寻求市场验证间的博弈。与此同时,美国对AI采取“自愿”监管框架,与中欧的强制性法规形成对比,进一步加剧了行业未来的不确定性。 AI基础设施与巨额投资 * Alphabet募资与支出:谷歌母公司Alphabet 20年首次发股募资800亿美元,一半用于算力建设,并计划2026年资本支出达1800-1900亿美元,2027年显著增加。 * 伯克希尔哈撒韦入局:巴菲特的伯克希尔哈撒韦投资100亿美元,表明其认可AI为长期赌注。 * 行业总投入激增:预计2026年五大云厂商合计资本支出将达7000-9000亿美元,比2025年增长36%。 全球AI监管框架差异 * 美国“自愿”监管:特朗普政府颁布“自愿”AI行政令,将模型测试的选择权交给企业,旨在平衡创新与安全。 * 中欧强制法规:欧盟有法律约束力的AI法案,中国有算法备案制度,采取强制监管。 * 潜在风险:美国“自愿”框架可能导致激进公司抢占先发优势,若模型出事,可能引发更猛烈的监管反弹。 AI公司策略与市场变局 * OpenAI平台拓展:OpenAI的前沿模型和Codex首次在AWS上可用,打破了其与微软Azure的独家关系,扩展了企业客户群。 * AWS“模型超市”:AWS有望成为AI模型聚合平台,提供Anthropic、Meta Llama和OpenAI等多种模型,强化其AI服务组合。 * Anthropic IPO:Anthropic秘密提交S-1文件,启动IPO进程,可能为其他未上市AI公司打开上市大门,寻求公开市场对其估值的消化。 * 估值与回报压力:三家未上市AI巨头估值合计可能超过5000亿美元,行业面临如何找到“应用层杀手”以填补巨额投资与收入缺口的挑战。

5分钟
31
2天前
白宫改测模型,Alphabet筹800亿

白宫改测模型,Alphabet筹800亿

AI观测站-AI Observatory

🧠 本期要点 1) 特朗普签署人工智能行政令,要求AI公司在最强模型公开发布前最多提前30天自愿提交政府测试,受保密和知识产权保护约束。 2) Alphabet计划通过股权融资筹集800亿美元,用于扩展AI基础设施和全球算力,其中伯克希尔·哈撒韦预先安排100亿美元投资。 3) OpenAI宣布前沿模型和Codex可在AWS上使用,并发布新Codex能力扩大智能体工具范围,争取企业用户。 4) 微软在GitHub上的Agent Framework获得约1.1万颗星和1800个分支,支持.NET和Python,帮助开发者构建生产级AI智能体。 5) 微软发布基于OpenClaw的自主AI智能体Scout,强调开发者需按场景测试并配置责任AI措施。 6) PitchBook报告显示,消费者AI独角兽累计估值达1.4万亿美元,前十家公司占近80%价值,并购交易从25起增至49起。 7) 桥水认为AI驱动的劳动力替代风险在短期内仍较低,OpenAI CEO Altman称采用AI多的公司招聘也多。 8) OpenAI CEO Altman补充说,AI有时成为公司解释裁员的方便理由,他仍不确定AI最终如何影响就业。 9) 美国财政部被置于AI网络安全跨部门协调机制核心位置,命令涉及模型访问的保密和内部风险要求。 10) Alphabet预计2026财年资本开支为1800亿到1900亿美元,2027年将显著增加,约一半资金用于员工股权归属税务义务。 ⏱ 时间线 00:03 一边是白宫把模型测试改成自愿提交,一边是Alphabet用800亿美元股票融资继续修机房。 00:25 先看规则。 01:04 口径要讲清楚:自愿提交,不等于美国政府给每个大模型发上市许可证;缩小版,也不等于监管消失。 01:35 第二条转到钱。 02:19 金额很大,但它是融资额和资本开支计划,不是新增收入,也不是说800亿美元都会变成AI芯片。 02:47 第三条看模型怎么进企业。 03:21 但可用不等于大规模采用,接入AWS也不等于企业马上把核心流程交给模型。 03:56 第四条接着看开发者入口。 04:36 GitHub星数不等于企业生产采用,框架发布也不等于安全问题自动解决。 05:07 第五条看消费AI的钱往哪里挤。 05:39 估值不是收入,并购数量也不等于每个产品都有健康留存。 06:09 最后看就业这张最敏感的牌。 06:40 这还不能说明白领岗位就安全了。 07:14 今天的共同信号很直接:AI行业正在从能力展示,走进资本、合规和组织管理的账本。

7分钟
79
3天前
2026年6月:Anthropic抢跑,AI清算220独角兽

2026年6月:Anthropic抢跑,AI清算220独角兽

AI观测站-AI Observatory

当前AI行业正经历一场剧烈洗牌,220家曾估值虚高的独角兽公司因技术栈停留在GPT-3时代,面临被资本抛弃的困境。与此同时,Anthropic通过抢先IPO,NVIDIA携手中国宇树科技深入人形机器人领域,以及软银等巨头对AI基础设施的巨额投资,共同加速了行业向平台、算力和应用三层玩家集中的趋势,预示着AI“独角兽通胀”的清算。 220家独角兽面临AI淘汰困境 * 超过220家独角兽公司因技术栈停留在GPT-3时代,在GPT-4和Claude 3涌现后过时,面临融资困境甚至倒闭。 * 这些公司多是2022年融资潮中估值虚高的产物,现在市场对其用传统估值模型审视。 * 它们未来只有被低价收购、重构技术栈或倒闭三条出路,预示着AI行业“独角兽通胀”正在被清算。 Anthropic抢先IPO挑战OpenAI * Anthropic秘密向SEC提交S-1草案,抢先OpenAI叩响资本市场大门,被Gizmodo称为“Just Beat OpenAI in the IPO Race”。 * 其成功部分归因于积极的公关策略,如超级碗广告、拒绝军事合同争议以及与教皇会面。 * Anthropic若率先上市,将为顶级AI公司设定估值锚点,可能影响OpenAI的估值叙事主动权。 * S-1文件将首次公开其财务数据(如收入结构和亏损规模),使市场能用传统估值模型审视AI巨头。 NVIDIA联手宇树科技拓展机器人生态 * NVIDIA在Computex上发布Isaac GR00T开放参考设计,选择中国宇树科技H2 Plus机器人本体作为其平台基础。 * 选择宇树科技的原因在于其在成本控制和量产能力上的领先,以及H2机器人在学术圈已有的用户基础。 * NVIDIA旨在通过此平台将Blackwell芯片直接嵌入机器人,复制其在数据中心的垄断模式。 * 此举可能使特斯拉Optimus的封闭系统面临生态孤岛风险;宇树科技正寻求上海科创板IPO,但面临中国技术出口管制带来的挑战。 巨额投资涌入AI基础设施重塑行业格局 * 软银计划投资750亿欧元在法国建设AI数据中心,IREN宣布部署超过5万块NVIDIA Blackwell Ultra GPU,表明对AI算力需求的确定性投资热潮。 * 这种基础设施的巨额投入与大量独角兽的衰落形成鲜明对比,市场用脚投票淘汰过时技术栈。 * AI产业正加速向平台层、算力层和应用层三类玩家集中,中间层独角兽将面临被收购或消失的命运。

5分钟
38
3天前
它凭三五个邻居就给你贴标签:K近邻和推荐系统的潜规则

它凭三五个邻居就给你贴标签:K近邻和推荐系统的潜规则

AI观测站-AI Observatory

这份播客深入浅出地探讨了K近邻(KNN)算法及其在推荐系统中的核心应用,旨在向普通听众解释这一“看你像谁”的朴素智能原理。内容涵盖了从距离度量、特征标准化到向量化等关键技术细节,并通过生动的现实案例展示其价值,同时也明确指出了维度灾难、数据偏差、合规性等应用中的边界与风险。 K近邻核心原理与距离度量 * K近邻核心机制: K代表邻居数量,用于分类(邻居投票)和回归(邻居平均)任务。 * 距离度量方法: 欧氏距离(衡量直线距离)、曼哈顿距离(衡量城市道路距离)、余弦相似度(衡量方向接近程度)。 * 特征尺度重要性: 收入、年龄、逾期次数等不同尺度的变量需要标准化,以防止某些变量权重过高,压倒其他变量的影响。 推荐系统中的应用及向量化 * 推荐系统应用: 电商、短视频等平台通过用户/物品相似度实现个性化推荐,现代系统还包括召回、排序、重排等复杂链路。 * 向量化概念: 文本、图片、用户、商品等各类数据都能被转化为向量表示,RAG检索等也运用相似度思维。 * 真实案例: 房价相似房源估值(基于面积、房龄、地段等找相似成交房),以及医学相似病例检索。 K近邻的挑战与边界 * 维度灾难: 数据维度过高时,样本之间的距离差异可能变得不明显,导致“近邻”不再真正接近。 * 数据与业务风险: 面临数据偏差、样本泄漏、训练集与现实不同等问题,模型准确度不等于业务盈利。 * 合规与责任: 在医疗、金融、自动驾驶等领域,必须关注可解释性、隐私安全、监管合规及模型漂移等边界。

13分钟
32
3天前
中国收紧技术出海,软银押法国机房

中国收紧技术出海,软银押法国机房

AI观测站-AI Observatory

🧠 本期要点 1) 中国国务院6月1日发布新规则,7月1日起生效,要求涉及受限制商品、技术、服务和数据的出口或海外使用需获授权。 2) 日本软银计划在法国投资最多750亿欧元建设AI数据中心,首批设施预计五年后上线,目标建设5吉瓦容量。 3) 英伟达计划与人形机器人厂商合作,基于Isaac GR00T平台构建开放人形机器人参考设计,销售对象为研究机构。 4) 头部模型公司Anthropic已向美国证券交易委员会秘密提交S-1草案,开始为IPO准备正式流程。 5) 美国佛罗里达州起诉OpenAI及CEO Sam Altman,指控其欺骗性做法,这是美国首个州政府主导的此类诉讼。 6) Qwen官方博客发布Qwen3.7-Plus,主题为多模态智能体能力,强调从单次问答转向组合能力。 7) 软银宣布建设5吉瓦数据中心容量,第一阶段到2031年投入450亿欧元,在法国北部建设3.1吉瓦AI数据中心。 8) 英伟达发布基于Isaac GR00T平台的开放人形机器人参考设计,组合宇树H2 Plus机器人、Sharpa五指灵巧手等组件。 9) Anthropic秘密提交S-1草案,被解读为在上市竞赛里快过OpenAI一步,需将商业故事写成监管文件。 10) 佛罗里达州总检察长办公室称,该诉讼是首个由州政府主导、针对OpenAI和Altman欺骗性做法的诉讼。 ⏱ 时间线 00:03 距离7月1日还有不到一个月,AI公司先听到的不是发布会掌声,而是边界收紧的声音。 00:28 先看最有约束力的一条。 00:55 这里要把口径讲清楚。 01:24 对企业负责人来说,这类规则最麻烦的地方,不是多填一张表,而是交易节奏会被重新安排。 01:47 边界收紧的另一面,是算力还在找新落点。 02:15 这个数字听起来很大,但它是计划投资和容量目标,不是今天已经建成的机房,也不是已经确认的收入。 02:47 5吉瓦不是一个小机房概念,它意味着电网、冷却、土地和长期购电合同都要一起跟上。 03:10 再把镜头转到机器人。 03:47 昨天和上周我们已经讲过宇树上市、人形机器人基准这些线索,今天的新变化不是“又一家机器人公司出圈”,而是英伟达想把研究用人形机器人做成标准套件。 04:20 这对机器人创业公司也有压力。 04:38 资本市场也在给模型公司换考卷。 05:08 这条新闻和昨天我们讲过的Anthropic网络安全能力不是同一件事。 05:40 OpenAI也被拉到法律前台。 06:06 诉讼标题不能直接等同于法院已经认定违法,这是最基本的事实边界。 06:37 最后回到模型发布。 07:02 官方材料能确认的是发布时间、发布主体和能力方向,没有给出参数规模、价格、基准分数或客户名单。

8分钟
54
4天前

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧