节目列表: 田丰说 - EarsOnMe - 精选播客，一听即合

第141集 Meta开源大模型，逆袭闭源GPT-4o!

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，大模型是新一代智能硬件和云侧的操作系统，Meta凭借雄厚的现金流投资数百亿美元研发开源大模型，遵循“安卓策略”吸引了全球大量的开发者、研发团队，保证Llama系列大模型不仅在开源界遥遥领先，而且已经追平闭源大模型GPT-4o，客观上来说，Llama3模型已经成为全球能力最强、最受开发者欢迎的开源大模型。纵观国内，上海AI实验室研发的“书生·浦语2.5”大语言模型、“书生·万象2.0”多模态大模型正在引领国产化AI开源生态。全球AI要闻，最强开源模型Llama 3.1 405B正式发布。 7月24日，Meta宣布世界上最大参数、功能最强的开源基础模型Meta Llama 3.1 405B正式发布，该模型拥有4050亿参数量，128k上下文窗口，支持8种语言。在关键基准测试上，405B模型的性能与OpenAI的GPT-4o十分接近。405B模型使用超过15万亿的token数据，在超过16000块H100GPU芯片上进行训练。Meta对训练堆栈进行了完整优化，选择进行少量调整的标准解码器Transformer架构，而不是MoE混合专家模型架构，最大限度提高了训练稳定性。 Meta公司CEO 扎克伯格写长文阐述《Open Source AI Is the Path Forward》，即《开源人工智能是前进路线》，Llama 3模型科研花费了“数亿美元”，下一阶段计算投资将达到数十亿美元。最值得关注的是，Meta开源了模型权重，发布了92页论文，包括预训练数据的筛选、合成数据的使用，视觉、语音、视频等多模态信息的处理，首次允许开发者使用Llama模型来改进其他模型。现在，开源模型技术几乎与封闭模型并驾齐驱了。论文亮点为：亮点1，Meta指出高质量基础模型的开发有三个关键杠杆：数据、规模、复杂性管理。在数量和质量方面，改进了预训练和后训练的数据，Llama 3旗舰版语言模型使用了3.8× 10²⁵次浮点运算（FLOPs）进行预训练。亮点2，15T的tokens数据管道使用Llama 2清理、过滤，代码和数学使用Deepseek v2管道，120 万个合成对话框从文档、说明转到代码，然后使用大语言模型LLM作为过滤判断，405B模型通过代码执行反馈进行自学，将代码数据转换为更小粒度的编程语言。亮点3，PyTorch训练框架创始人Soumith Chintala 说，Llama3论文揭示了许多很酷的细节，其中之一就是基础设施的构建，总体有效训练时间达到了90%。亮点4，为了支持405B模型的大规模生产推理，Meta将BF16量化为8位(FP8)，从而降低了计算要求，并使模型能够在单个服务器节点上运行。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

4分钟

8

第140集加拿大AI独角兽：55亿美元Cohere!

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，每一次AI浪潮都是“算力基建先行，企业客户创新”，当前大模型工业化的路径，来自于2B工程的易用性、行业模型应用开发创新的低门槛，目前在全球中美AI的两极之外，加拿大、法国异军突起，逐步形成新的“AI高地”，中国开放型AI科研与产业生态，应增强与这些创新型国家的AI学术交流、贸易合作。全球AI要闻，Cohere公司融资5亿美元，估值达55亿美元。 7月22日，加拿大本土的AI模型创企Cohere宣布完成D轮5亿美元融资，估值达55亿美元。据悉，新一轮融资的领投方为加拿大养老金资管PSP Investments，包括思科、日本富士通、AMD Ventures等。Cohere公司由联合创始人Aidan Gomez领导，他是开创性大模型研究论文《AttentionIs All You Need 》作者之一。其客户包括Notion Labs、Oracle公司，通过 Cohere技术来帮助与用户沟通，并在产品中添加AI功能。该公司团队规模250人，计划在今年扩招将员工人数翻倍。截止3月底，Cohere ARR年营收已经达到3500万美元。Cohere称公司并没有追逐AGI通用人工智能，而是致力于开发能在企业中有效落地运行的模型来解决实际问题。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

7

第139集 2027~2030年AI视频颠覆广告业!

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，人类处于视频叙事的互联网时代，不论办公、客服、旅游、教育、社交、游戏、广告等都是以视频为载体，纯文字形式已经退居幕后，当AI能够低成本、实时生成全身人像视频时，人类社会的商业文明将发生翻天覆地的变化，远超过抖音、YouTube带来的短视频经济。 7月初，商汤科技已经发布了全球首个面向C端用户的可控人物视频生成大模型Vimi，它依托商汤日日新大模型，仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频，并支持多种驱动方式，可通过已有人物视频、动画、声音、文字等多种元素进行驱动，加速推动广电、广告、媒体行业进入“生产即传播，传播即消费”时代。全球AI要闻，HeyGen CEO预测，5年内实时生成广告将成为新范式。 AI 视频生成公司HeyGen最近完成了6000万美元A轮融资，估值5亿美元，过去1年大约3500万美元收入。HeyGen创始人Joshua Xu近日在硅谷播客No Priors中分享称，未来特别期待全身Avatar数字人的技术实现，当前技术都集中在上半身，另一个关注点是实时视频生成Avatar，尤其是在GPT-4o语音助手后应用前景广阔，以前必须单方面训练TTS文本声音模型，然后把TTS的输出再输入到视频模型里。现在通过统一多模态大模型训练，Avatar能够成为这些多模态应用的可视化交互层。亮点1，目前HeyGen在研发创建内容的入口点，需要创造更好的生成视频的实时体验，这将会替代现在的很多实时对话功能，特别是结合了GPT-4o和多模态实时传输技术之后。亮点2，2年后，我们会看到很多异步生成的Avatar数字人视频能够实现实时传输。在5年内将能实时生成整个数字人交流视频，那时生成的视频不再是传统格式了，而是一种新交互模式。亮点3，当前广告业是先准备好视频文件，未来能根据用户产品特点实时生成广告内容视频，这会成为一种广告生产、视频播放器的新范式，以最佳方式传递给用户。亮点4，HeyGen公司已经跟OpenAI和EventLab两个公司建立战略合作，团队严格遵守每周迭代和发布，目前40多人。CEO Joshua Xu说团队精简，要专注于业务中最重要的部分。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

3分钟

7

第138集英伟达剑指“终端小模型”!

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，在云侧数据中心市场，英伟达具有绝对领先优势，下一步寄希望于通过移动终端通用GPU、开源小模型等生态打法，抢占正在蓬勃兴起的AI PC、AI眼镜、智能车、机器人终端市场，这对国内AI芯片企业有一定战略指导意义。全球AI要闻，英伟达重磅开源，最佳压缩架构节省1.8倍算力。 7月23日，英伟达发布了开源小模型Minitron 4B和8B，即40亿和80亿两个版本，Minitron是通过修剪Nemotron-4 15B 150亿模型获得的小语言模型，为大语言模型开发探索了一套实用且有效的压缩最佳实践。Minitron 使用小于3%的小部分原始训练数据，避免了完全重新训练的高昂开销。与从头开始训练相比，每个模型所需的训练标记最多减少了40倍，这为训练整个模型系列（15B、8B和4B）节省了1.8倍的计算成本。与从头开始训练相比，Minitron模型的MMLU评测分数提高了16%，性能可与法国Mistral7B、谷歌Gemma 7B 和Meta Llama-3 8B等小模型相媲美，并且优于文献中最先进的压缩技术。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

1分钟

4

第137集世界“AI基建”竞赛，中国迈入新征程！

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，美国1995年的“信息高速公路计划”收获了全球互联网经济的核心价值。在人工智能时代，本周马斯克已经启用了10万个液冷 H100芯片，组成了世界上最大AI训练集群“孟菲斯”，xAI团队的目标是2024年12月之前训练出世界最强的大模型。在未来3年，微软、谷歌每家计划投资1000亿美元在AI基础设施上，这份财力已经超过了绝大多数中国科技企业的自身能力，我们应发挥举国体制优势，以普惠、共享、统一的超大规模基础设施规划建设，加速基础科研、释放14亿人的AI创新力。全球AI要闻，中国AI基础设施建设提速，商汤与中国联通启动合作。 7月19日，2024中国联通合作伙伴大会上，商汤科技与中国联通签署战略合作协议，双方将在大模型及应用领域开展多元合作，共同为行业客户提供人工智能大模型基础设施即服务、AI即服务、模型即服务等多种专业服务模式，同时联合内外部生态资源，携手形成以上海市场为初始区域的大模型方案，为行业数智化转型树立新标杆。商汤科技联合创始人、大装置事业群总裁杨帆指出，算力、大模型、数据都将被基础设施化，AI企业与运营商形成良好互补，共同推动产业生态发展，创造更大产业价值。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

5

第136集吴恩达预测：2025年视觉大模型爆发！

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，很多企业做人工智能转型时，通常会面对自有数据量少、或历史数据繁杂的挑战，多模态大模型将接替单模态语言大模型，形成用于数据搜集、清晰、标注、测试、对齐的训练工具管线，逐步从半自动化模式进入全自动化模式，这很像工业革命中福特T型车生产线的工具创新路径，AI2.0工业化的发展将超乎我们想象。全球AI要闻，吴恩达预测，视觉大模型将在2年内爆发。 7月21日，LandingAI CEO吴恩达教授在硅谷播客Fortt Knox中分享，世界上大多数数据是图像、视频，但直到现在并没有真正的工具能从这些数据中创造价值。从高层次来看，图像处理革命虽然稍微落后，但它正在到来。吴恩达还提到，未来5年内，我们将看到在医疗领域的重大进展，涵盖从癌症筛查到不同类型疾病的血液筛查等各个方面。Pure Storage等机构在一个月前宣布对Landing AI进行投资，新基金计划融资1.2亿美金。亮点1，企业领导层识别并决定执行哪些项目的能力实际非常重要。数据少并不意味着不能AI化，某个特定客户只有比如100张图像，这个小数据集加上来自互联网的数亿张图像进行训练，也能快速构建出有价值的AI系统。亮点2，视觉模型领域的发展比大语言模型领域晚1.5年到2年。训练大语言模型时，输入适合训练的文本数据耗费了模型公司大量时间，随着客户多模态数据整合，为了减少访问数据的摩擦，数据工具正在改善训练效率。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

23

第135集硅谷疯狂AI基建，微软笃定“AI生态战略”

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，人工智能产业化正在大幅提速，未来2年我们会看到中美欧头部AI平台生态的商业竞赛，创业企业依靠国产AI基础技术栈，开发AI爆款应用的窗口期到来。微软与OpenAI的合作已经进入第二阶段，微软的核心价值不是OpenAI，而是来自于云化的AI算力基础设施、AI助手贯穿的全部软件产品、易用的AI应用开发平台。全球AI要闻，微软、Meta继续加码“集成与模块化AI”。美银发布最新预测，2024年下半年的云资本支出将创历史新高，全球云厂商支出将达到1210 亿美元，全年达到2270 亿美元。美银认为，当前市场刚刚进入AI基础设施建设的第2年，仅在2024第一季度Meta、谷歌、微软等云厂商大幅上调云资本开支，全年同比增长39%。甲骨文也宣布，2025年的资本支出将是2024年的2倍。著名科技产业分析师Ben Thompson在对微软CEO Satya Nadella和CTO、DatabricksCEO进行系列专访后总结，Nadella在回答关于谷歌和AI的问题时说：“我认为市场上总有空间进行纵向整合。我总是会回看‘盖茨-格鲁夫模式’ ，又称Windows-Intel模式，强调通过控制关键技术和建立开放合作的生态系统，来实现持续的竞争优势，‘苹果模式’，谷歌是AI届的苹果，或许还有新谷歌模式，即纵向集成模型。我认为这两种模式都有戏。”在回答未来模型被商品化后，将发生哪些新变化？微软CEO Nadella分享了三点。亮点1，微软最终并不像一个企业集团，必须有一个架构的凝聚力。客户关心微软带来的整合价值，但他们也非常关心每件事情是否具有竞争力。事实上，微软的最佳状态不仅仅是整合，而且必须加上堆栈每一层的竞争力。亮点2，微软从云端业务学到的经验教训是，AI公司不是一个运营不同业务的企业，而是微软所有产品组合的技术堆栈。在这次人工智能转型中，任何控制业务资本支出的企业都很可能会遇到麻烦。亮点3，微软从2024年初至今的大部分行动，都集中在将AI模型业务从对特定合作伙伴的依赖中抽离出来，特别是通过公司自管的AI开发平台进行管理和优化。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

3分钟

9

《人有人的用处》控制论创始人：动物、人类、AI语言进化

关注《田丰说》，每天3分钟，学习一本经典书！田老师今天给大家分享一本控制论创始人诺伯特·维纳的好书《人有人的用处：控制论与社会》。天才都是博学的，1894年出生的诺伯特·维纳青年时在康奈尔大学、剑桥大学、哈佛大学、麻省理工学院读书、访学、任教，大数学家罗素、哈代都是他的老师，但绝对不是一个书呆子，第一次世界大战期间，维纳曾在通用电气公司、马里兰州海军陆战队工作，第二次世界大战期间，维纳为防空炮研制出更有效的火力控制装置，通过设计一种新的滤波方法，减小追踪飞行物的雷达信号误差。 1943年，维纳基于火炮控制研究，与别人合作写出第一篇控制论论文《行为，目的和技术》，提出“控制行为是一个从原因到目的之间的随机试探和反复调节的曲折过程。” 1948年，维纳出版了《控制论》一书，给社会带来了巨大影响。这与1947年钱学森提出的《工程控制论》中“反馈-调节”异曲同工。今天田老师分享的是另一本1954年维纳出版的经典长销书《人有人的用处》。在距今整整70年前，维纳就预言了“生命体和人造机器在一定程度上可以共有语言”，这就是2022年出现的ChatGPT等大语言模型的控制论理论基础。维纳认为“语言即通信”，动物的语言包括飞鸟、猴子、昆虫之间的通信内容，人类说话、写字都是用蕴含复杂含义的符号进行通信编码，而倾听语音、阅读文字是在通信解码。人类语言与动物语言最大的差异在于，我们发明了专用语言符号去表示逻辑关系、逻辑分类、抽象对象等“高级逻辑类型”，比如子集、交集、社会、国家等，而动物语言只能表达情绪，比如狮子的咆哮、孔雀的求偶叫声，大部分动物无法学会别的种族动物语言，鹦鹉、燕雀、乌鸦等少数动物能够学会其他动物和人的喊叫声，因为这几种鸟类都是需要通信的社会生物，而且记忆力好、寿命较长。维纳认为，因为人类和人造机器(AI)能够共有语言，人与机器、机器与机器的消息会日趋重要，人向机器讲话是发出调节指令，机器向人讲话是反馈消息，甚至机器也能向机器发出人类授权的调节指令，这一过程形成了持续改进、灵活决策的控制论闭环。人类的自然语言需要很好的记忆力，通过人脑神经元的突触来实现。而动物语言缺少精细性、准确性，所以维纳说：“言语不是天赋，言语能力才是天赋的。” 小猩猩不能讲话的障碍来自于无法理解人类复杂的语义，与语言发音无关，所以人类对智力训练的最古老方式就是原文鉴定，例如东方品鉴四书五经、西方品鉴圣经，从古汉语、拉丁语、梵语、希伯来语到现代语的发展，本质上代表着文明间的文化通信与智力迭代融合。每天3分钟，学习一本经典书！《田丰说》全网发布，敬请关注！

4分钟

29

第134集 Gartner预测：2027年模型价格下降99%！

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，AI为软件业带来变革，而每一次软件业创新都会给全人类带来翻天覆地、突破想象的巨大变化，尤其是当技术成本飞速下降时，中国14亿人的创新能力、工程能力都被释放出来，未来三年我们将看到如雨后春笋般加速生长的AI2.0应用，低成本的AI服务是打开全民新质生产力的钥匙。全球AI要闻，大模型价格战加速AI向云端迁移。 Gartner最新分析报告指出，大模型API的降价对企业级市场的短期影响非常有限，产生的变化是推动众多企业将生成式AI应用从内部机房私有化部署转向AI云端，因为云侧大模型API的价格正在持续下降，况且大模型云部署能提供灵活性、创新速度、开发生态系统。值得注意的是，AI模型价格只是市场评估因素之一，客户还需要考虑服务质量、吞吐量、延迟性能等其他关键因素。预计到2027年，中国基于AI云的人工智能推理算力负载，将从现在的20%上升到80%。大模型API服务平均价格将继续下降，在保持相同质量、吞吐量和延迟水平的情况下，模型平均价格将低于当前均价的1%，即下降99%。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

19

第133集 Mistral Nemo、英伟达，开源12B“小模型”！

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，正如当年Windows、安卓操作系统的市场普及，算力门槛更低、智能水平够用的小模型将在未来2到3年，迅速席卷消费电子、互联网应用、传统软件市场，带来AI硬件换代潮、软件AI升级潮，这就是为什么Mistral小模型选择和英伟达合作的原因，英伟达希望通过小模型+终端芯片抢占消费电子市场份额。国内AI产业异曲同工，商汤科技将“日日新5o”模型接入智能台灯，让所有青少年、成年人拥有了一部“会说话”的AI万能百科全书、一位贴心的AI学科辅导老师。全球AI要闻， Mistral联合英伟达开源12B小模型。 7月19日，MistralAI官宣和英伟达联合打造，参数量为12B（120亿）的开源小模型Mistral NeMo，上下文窗口是128k，推理能力、编码准确性在同类产品中都是SOTA最优级别。由于Mistral NeMo依赖于标准架构，因此更易于使用，能在任何使用Mistral 7B的系统中成为替代品。 NeMo模型专为全球多语言应用而设计，包括中文、日语、韩语、阿拉伯语等表现尤为突出。NeMo使用基于Tiktoken的新分词器Tekken，与Llama 3分词器相比，在压缩所有语言中大约85%的文本内容更胜一筹。该模型的效率和本地部署能力适合笔记本、台式电脑。英伟达和Mistral AI正在通过小模型解决数据隐私、延迟等本地处理问题。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

10

第132集 GPT-4o mini，开启“小模型”竞赛！

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。田老师认为，AI原生公司商业化加速，从比拼“越大越强”的基础模型，转向比拼“小而优”物美价廉的小模型，世界移动终端、软件应用将被无数小模型占领，企业级客户、C端客户喜爱“既聪明又便宜”的AI模型服务。 7月商汤科技在世界人工智能大会上，公布了具有环境感知能力、语音对话能力的“日日新5o”模型，并带来了惊喜价格，单设备使用AI一年9.9元。商汤科技董事长兼CEO徐立博士说：“要让每个人都能用上AI大模型，就必须让更多终端都能接入大模型。因为终端上的计算是分布式的，而不是集中化的。” 全球AI要闻，Sam Altman认为，通往智能的成本忽略不计了。 7月19日凌晨，OpenAI发布GPT-4o mini，是目前硅谷最具成本效益的小模型，让智能服务更加经济实惠，大大扩展了利用人工智能构建的应用范围。GPT-4o mini在国际基准测评MMLU排行榜上得分率为82%，每百万输入token的价格是15美分，约1.12元人民币，每百万输出token的价格是60美分，约4.32元人民币，比自家GPT-3.5Turbo便宜60%以上，也比竞争对手Claude 3 Haiku和谷歌Gemini Flash要便宜40%至60%。Sam Altman评价说：“两年前，世界上最好的模型还是GPT-3的text-davinci-003版本，与今天相比表现差得多，还要贵上100倍。通往智能的成本已经低到可以忽略不计。” 亮点1，在OpenAI的设想中，未来模型将无缝集成到每一个应用程序和网站中。GPT-4o mini为开发人员铺平了道路，更经济地构建和扩展AI应用。亮点2，过去的一周，GPT-4o mini早期版本在大语言模型竞技场Arena进行测试，用户投票超过6000人次，成绩赶超GPT-4-Turbo性能。GPT-4o mini即日起向ChatGPT用户开放，计划在未来几天内向市场推出微调功能。亮点3， GPT-4o mini是第一个应用“指令分层”方法的模型，有效提高模型抵御越狱、提示注入和系统提示提取等安全能力。亮点4，OpenAI在博客附上了9名团队负责人名单，有5位是华人面孔，清华、北大、同济校友均在列，其中加入公司最长的一位科学家在岗时间是4年。本周四，花旗发布报告公布，继Google、Meta、字节跳动后，OpenAI将成为博通的第四大ASIC定制芯片客户，预计博通将在2025年下半年后交付芯片。每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

3分钟

7