关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,人类需要使用更聪明且更安全的AI,这已经成为中美等全球共识,OpenAI等一众硅谷创业企业都在研发新的模型安全技术,同时加大研发投入、提升营收能力。 全球AI要闻,人类反馈强化学习RLHF不够用了,OpenAI重新设计安全机制。 7月25日,OpenAI公布了一种教导AI模型遵守安全政策的新方法,称为基于规则的奖励,简称RBR。作为论文作者之一,OpenAI 安全系统负责人Lilian Weng表示,RBR规则奖励技术能够自动执行模型微调。传统上,我们依赖于来自人类行为反馈的AI强化学习,作为默认的人机对齐训练方法来训练模型,但当今面临的挑战是,花了很多时间讨论政策的细节,而到最后,安全策略可能已经改变了。RBR规则奖励技术,是使用一组安全规则来定义期望或非期望的行为,例如拒绝不应带有评判性,并结合一个大语言模型LLM评分器。即以另一个AI提供强化学习信号,帮助被训练模型更容易适应不断变化的安全政策,而无需严重依赖人类反馈数据。此外,借助RBR技术,研究者能够采用更统一的视角看待安全性和模型能力,因为更强大的分级模型能提供更高质量的强化学习信号。OpenAI 分享自GPT-4发布以来,他们一直将RBR技术用作安全堆栈的一部分,包括GPT-4o mini研发,并计划在未来的模型中实施它。 另据外媒The Information报道,OpenAI今年或许面临高达50亿美元的亏损。今年在模型算力方面,开支40亿美元租用微软服务器,在模型训练成本和研发人力成本开支将达到惊人的85亿美元。目前OpenAI公司人数已近翻倍,达到1500余人。而在营收方面,OpenAI每月收入大约2.83亿美元,全年预计营收35亿到45亿美元。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,互联网数据推动大模型突飞猛进的成长期已过,最领先的大模型研发依赖高质量的合成数据,下一代大模型将展现出惊人的智能体能力,包括先思考再行动、调用工具、自我改进等。 全球AI要闻,Llama3.1作者认为,网络文本基本都是“狗屎”。 7月24日,Meta AI研究员ThomasScialom一直负责Llama 2/3系列模型post-training后训练,他在LatentSpace播客分享指出,网络上的文本都是“狗屎”,在这些标记上训练是在浪费算力。而目前训练后的Llama 3模型基本上没有任何人工编写的答案,它只是利用了Llama 2的纯合成数据。他指出Tokenizer的大小规模很重要,这一点被人们轻描淡写地忽略了。 亮点1,Llama2有3.4万个词库,即标记词表,GPT-4有10万个,GPT-4o增加到20万个。Llama3增加了4倍,达到12.8万个词库。如果一个标记符能表示更多的信息,那么在表示相同数量的文本时,需要的标记符总数就会减少,扩大了可感知的上下文大小,这能提高训练效率、存储空间利用率。 亮点2,Llama3.1在54天预训练期间遭遇了417次意外中断,挑战巨大。为什么不是MoE架构?Thomas回答,密集模型只是MoE超参数模型的一个特定变体,基本上只有一个专家模型,未来会探索MoE架构。 亮点3,Meta在6月已经开始训练Llama4大模型,重点围绕智能体,多模态版本将稍后发布。当前的Llama3模型在智能体工作流方面存在“智能差距”,AI无法在用户不依赖ReAct推理技术、CoT思维链、Autogen框架等技术时进行。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,伴随美国Meta、法国Mistral两家企业在开源基础模型上的持续研发投入,开源大模型迎来了反超闭源大模型的一波浪潮,虽然部分开源模型的商业化落地需要原厂License许可,开源是一种开发者友好型的生态战略,并不代表完全自由的免费商用。中国超过20亿的物联终端,应提前考虑国产化小模型的落地规划,7月商汤推出了“日日新5.5”端云一体模型,每台终端设备的包年使用成本最低仅需9.9元。 全球AI要闻,Mistral AI公司推出123B开源大模型,硬刚Meta刚发布的Llama 3.1。 2天内,世界就有了2个GPT-4水平以上的开源大模型发布。法国AI创企Mistral AI升级开源竞争,7月25日发布了下一代AI产品:MistralLarge 2开源大模型,123B代表1230亿参数量,拥有128K上下文,支持包括中文在内的11种语言,以及80多种编程语言。虽然参数量低于Meta Llama 3.1的405B 4050亿参数量,但实测得分二者性能接近,可用于单个H100 节点。Mistal Large 2大模型提供了开放的权重,允许第三方根据需求对模型进行调整,自行部署必须提前获取Mistral AI 商业许可证。AI搜索独角兽PerplexityCEO说:“当前趋势很明显,大家把赌注押在小型开源模型、提炼和微调、服务和数据收集上。一两个前沿的闭源模型仍有价值,但不是全部。” 亮点1,Mistral AI 基于Codestral 22B和Mamba的经验,在很大一部分代码基础上训练了Mistral Large 2。研发团队投入大量精力增强模型的推理能力,重点之一就是尽量减少模型产生幻觉,或产生合理但实际上不相关信息的倾向。 亮点2,与上一代Mistral Large1模型相比,Large 2模型在对齐和指令功能上投入了更多精力。在WildBench、ArenaHard 和 MT Bench评测题库 上,Large 2表现与全球最佳模型相当,同时冗长程度明显降低。 亮点3,Mistral Large2模型配备了增强的函数调用和检索技能,Function Calling单项能力在实测中,Large2得分超过GPT-4o,能够完成执行任务和顺序函数调用,成为复杂业务应用程序的强大引擎。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,25年前比尔·盖茨认为,在预测未来发展的时候,多数人会过于高估“短期的变化”,而低估了“长期的发展”,当人工智能+新型生产力技术到来时,熟悉传统生产力和传统生产关系的人们往往会犯刻舟求剑、颠覆式创造力不足的老毛病,人工智能是第四次工业革命,而不仅仅是一套热门技术工具,所以掌握底层逻辑的科技巨头们已经转移出大笔投资进行战略性基建投资、科研投资。 全球AI要闻,谷歌云业务首次破百亿,兑现AI增长。 7月24日,Google公布2024年第二季度财报,营收达847.4亿美元,其中广告收入放缓为646.2亿美元,同比增长13.6%,通过重组和人员优化后净利为236.2亿美元,同比增长28.6%。GoogleCloud谷歌云成为财报中一大亮点,营收同比增长29% 至 103.5亿美元,利润翻3倍达11.72 亿美元。这是云业务首次实现季度收入超百亿。 谷歌CEO桑达尔·皮查伊强调,对于谷歌母公司Alphabet而言,在AI领域投资不足的风险远远大于过度投资的风险!谷歌在搜索引擎中不断应用 AI 技术,吸引了更多用户和广告主。在二季度,谷歌资本开支达130亿美元,主要用于AI基础设施建设。未来几年将向自动驾驶子公司 Waymo额外投资50亿美元,Waymo每周提供超过5万次付费乘车服务。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,开源操作系统、开源大模型之争不仅是开发者人才竞赛,更是国家之间科研与产业竞赛,这意味着在全球AI产业链话语权的天壤之别。 全球AI要闻,扎克伯格明确方向,Llama会成为AI界的Linux。 RundownAI创始人Rowan Cheung在X上发布和扎克伯格的最新采访,“Llama 3.1对开源是一个里程碑的时刻。Llama有机会成为开源AI的标准,而开源将成为AI的行业标准。它将沿着Linux曾经走过的道路发展,即回到Linux普及之前的年代。” 亮点1,人们将渴望直接在4050亿参数的模型上进行推理,根据估算,相较于GPT-4o,405B模型这样做成本能降低大约50%。 亮点2,像Groq芯片在超低延迟推理领域有着卓越的表现,将会从中获得很大受益。 亮点3,Meta致力于赋予每位创作者和每家小微企业自主创建AI智能体的能力,让每个平台上的用户都能创建他们渴望交流的AI智能体。 亮点4,利用开源技术构建出世界领先、稳健的基础模型生态系统,并期望美国本土AI企业与政府、盟国政府在国家安全方面紧密合作,确保美国政府能够持续整合最新技术,领先对手半年或8个月。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,大模型是新一代智能硬件和云侧的操作系统,Meta凭借雄厚的现金流投资数百亿美元研发开源大模型,遵循“安卓策略”吸引了全球大量的开发者、研发团队,保证Llama系列大模型不仅在开源界遥遥领先,而且已经追平闭源大模型GPT-4o,客观上来说,Llama3模型已经成为全球能力最强、最受开发者欢迎的开源大模型。纵观国内,上海AI实验室研发的“书生·浦语2.5”大语言模型、“书生·万象2.0”多模态大模型正在引领国产化AI开源生态。 全球AI要闻,最强开源模型Llama 3.1 405B正式发布。 7月24日,Meta宣布世界上最大参数、功能最强的开源基础模型Meta Llama 3.1 405B正式发布,该模型拥有4050亿参数量,128k上下文窗口,支持8种语言。在关键基准测试上,405B模型的性能与OpenAI的GPT-4o十分接近。405B模型使用超过15万亿的token数据,在超过16000块H100GPU芯片上进行训练。Meta对训练堆栈进行了完整优化,选择进行少量调整的标准解码器Transformer架构,而不是MoE混合专家模型架构,最大限度提高了训练稳定性。 Meta公司CEO 扎克伯格写长文阐述《Open Source AI Is the Path Forward》,即《开源人工智能是前进路线》,Llama 3模型科研花费了“数亿美元”,下一阶段计算投资将达到数十亿美元。最值得关注的是,Meta开源了模型权重,发布了92页论文,包括预训练数据的筛选、合成数据的使用,视觉、语音、视频等多模态信息的处理,首次允许开发者使用Llama模型来改进其他模型。现在,开源模型技术几乎与封闭模型并驾齐驱了。论文亮点为: 亮点1,Meta指出高质量基础模型的开发有三个关键杠杆:数据、规模、复杂性管理。在数量和质量方面,改进了预训练和后训练的数据,Llama 3旗舰版语言模型使用了3.8× 10²⁵次浮点运算(FLOPs)进行预训练。 亮点2,15T的tokens数据管道使用Llama 2清理、过滤,代码和数学使用Deepseek v2管道,120 万个合成对话框从文档、说明转到代码,然后使用大语言模型LLM作为过滤判断,405B模型通过代码执行反馈进行自学,将代码数据转换为更小粒度的编程语言。 亮点3,PyTorch训练框架创始人Soumith Chintala 说,Llama3论文揭示了许多很酷的细节,其中之一就是基础设施的构建,总体有效训练时间达到了90%。 亮点4,为了支持405B模型的大规模生产推理,Meta将BF16量化为8位(FP8),从而降低了计算要求,并使模型能够在单个服务器节点上运行。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,每一次AI浪潮都是“算力基建先行,企业客户创新”,当前大模型工业化的路径,来自于2B工程的易用性、行业模型应用开发创新的低门槛,目前在全球中美AI的两极之外,加拿大、法国异军突起,逐步形成新的“AI高地”,中国开放型AI科研与产业生态,应增强与这些创新型国家的AI学术交流、贸易合作。 全球AI要闻,Cohere公司融资5亿美元,估值达55亿美元。 7月22日,加拿大本土的AI模型创企Cohere宣布完成D轮5亿美元融资,估值达55亿美元。据悉,新一轮融资的领投方为加拿大养老金资管PSP Investments,包括思科、日本富士通、AMD Ventures等。Cohere公司由联合创始人Aidan Gomez领导,他是开创性大模型研究论文《AttentionIs All You Need 》作者之一。其客户包括Notion Labs、Oracle公司,通过 Cohere技术来帮助与用户沟通,并在产品中添加AI功能。该公司团队规模250人,计划在今年扩招将员工人数翻倍。截止3月底,Cohere ARR年营收已经达到3500万美元。Cohere称公司并没有追逐AGI通用人工智能,而是致力于开发能在企业中有效落地运行的模型来解决实际问题。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,人类处于视频叙事的互联网时代,不论办公、客服、旅游、教育、社交、游戏、广告等都是以视频为载体,纯文字形式已经退居幕后,当AI能够低成本、实时生成全身人像视频时,人类社会的商业文明将发生翻天覆地的变化,远超过抖音、YouTube带来的短视频经济。 7月初,商汤科技已经发布了全球首个面向C端用户的可控人物视频生成大模型Vimi,它依托商汤日日新大模型,仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动,加速推动广电、广告、媒体行业进入“生产即传播,传播即消费”时代。 全球AI要闻,HeyGen CEO预测,5年内实时生成广告将成为新范式。 AI 视频生成公司HeyGen最近完成了6000万美元A轮融资,估值5亿美元,过去1年大约3500万美元收入。HeyGen创始人Joshua Xu近日在硅谷播客No Priors中分享称,未来特别期待全身Avatar数字人的技术实现,当前技术都集中在上半身,另一个关注点是实时视频生成Avatar,尤其是在GPT-4o语音助手后应用前景广阔,以前必须单方面训练TTS文本声音模型,然后把TTS的输出再输入到视频模型里。现在通过统一多模态大模型训练,Avatar能够成为这些多模态应用的可视化交互层。 亮点1,目前HeyGen在研发创建内容的入口点,需要创造更好的生成视频的实时体验,这将会替代现在的很多实时对话功能,特别是结合了GPT-4o和多模态实时传输技术之后。 亮点2,2年后,我们会看到很多异步生成的Avatar数字人视频能够实现实时传输。在5年内将能实时生成整个数字人交流视频,那时生成的视频不再是传统格式了,而是一种新交互模式。 亮点3,当前广告业是先准备好视频文件,未来能根据用户产品特点实时生成广告内容视频,这会成为一种广告生产、视频播放器的新范式,以最佳方式传递给用户。 亮点4,HeyGen公司已经跟OpenAI和EventLab两个公司建立战略合作,团队严格遵守每周迭代和发布,目前40多人。CEO Joshua Xu说团队精简,要专注于业务中最重要的部分。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,在云侧数据中心市场,英伟达具有绝对领先优势,下一步寄希望于通过移动终端通用GPU、开源小模型等生态打法,抢占正在蓬勃兴起的AI PC、AI眼镜、智能车、机器人终端市场,这对国内AI芯片企业有一定战略指导意义。 全球AI要闻,英伟达重磅开源,最佳压缩架构节省1.8倍算力。 7月23日,英伟达发布了开源小模型Minitron 4B和8B,即40亿和80亿两个版本,Minitron是通过修剪Nemotron-4 15B 150亿模型获得的小语言模型,为大语言模型开发探索了一套实用且有效的压缩最佳实践。Minitron 使用小于3%的小部分原始训练数据,避免了完全重新训练的高昂开销。与从头开始训练相比,每个模型所需的训练标记最多减少了40倍,这为训练整个模型系列(15B、8B和4B)节省了1.8倍的计算成本 。与从头开始训练相比,Minitron模型的MMLU评测分数提高了16%,性能可与法国Mistral7B、谷歌Gemma 7B 和Meta Llama-3 8B等小模型相媲美,并且优于文献中最先进的压缩技术。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,美国1995年的“信息高速公路计划”收获了全球互联网经济的核心价值。在人工智能时代,本周马斯克已经启用了10万个液冷 H100芯片,组成了世界上最大AI训练集群“孟菲斯”,xAI团队的目标是2024年12月之前训练出世界最强的大模型。在未来3年,微软、谷歌每家计划投资1000亿美元在AI基础设施上,这份财力已经超过了绝大多数中国科技企业的自身能力,我们应发挥举国体制优势,以普惠、共享、统一的超大规模基础设施规划建设,加速基础科研、释放14亿人的AI创新力。 全球AI要闻,中国AI基础设施建设提速,商汤与中国联通启动合作。 7月19日,2024中国联通合作伙伴大会上,商汤科技与中国联通签署战略合作协议,双方将在大模型及应用领域开展多元合作,共同为行业客户提供人工智能大模型基础设施即服务、AI即服务、模型即服务等多种专业服务模式,同时联合内外部生态资源,携手形成以上海市场为初始区域的大模型方案,为行业数智化转型树立新标杆。 商汤科技联合创始人、大装置事业群总裁杨帆指出,算力、大模型、数据都将被基础设施化,AI企业与运营商形成良好互补,共同推动产业生态发展,创造更大产业价值。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,很多企业做人工智能转型时,通常会面对自有数据量少、或历史数据繁杂的挑战,多模态大模型将接替单模态语言大模型,形成用于数据搜集、清晰、标注、测试、对齐的训练工具管线,逐步从半自动化模式进入全自动化模式,这很像工业革命中福特T型车生产线的工具创新路径,AI2.0工业化的发展将超乎我们想象。 全球AI要闻,吴恩达预测,视觉大模型将在2年内爆发。 7月21日,LandingAI CEO吴恩达教授在硅谷播客Fortt Knox中分享,世界上大多数数据是图像、视频,但直到现在并没有真正的工具能从这些数据中创造价值。从高层次来看,图像处理革命虽然稍微落后,但它正在到来。吴恩达还提到,未来5年内,我们将看到在医疗领域的重大进展,涵盖从癌症筛查到不同类型疾病的血液筛查等各个方面。Pure Storage等机构在一个月前宣布对Landing AI进行投资,新基金计划融资1.2亿美金。 亮点1,企业领导层识别并决定执行哪些项目的能力实际非常重要。数据少并不意味着不能AI化,某个特定客户只有比如100张图像,这个小数据集加上来自互联网的数亿张图像进行训练,也能快速构建出有价值的AI系统。 亮点2,视觉模型领域的发展比大语言模型领域晚1.5年到2年。训练大语言模型时,输入适合训练的文本数据耗费了模型公司大量时间,随着客户多模态数据整合,为了减少访问数据的摩擦,数据工具正在改善训练效率。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,人工智能产业化正在大幅提速,未来2年我们会看到中美欧头部AI平台生态的商业竞赛,创业企业依靠国产AI基础技术栈,开发AI爆款应用的窗口期到来。 微软与OpenAI的合作已经进入第二阶段,微软的核心价值不是OpenAI,而是来自于云化的AI算力基础设施、AI助手贯穿的全部软件产品、易用的AI应用开发平台。 全球AI要闻,微软、Meta继续加码“集成与模块化AI”。 美银发布最新预测,2024年下半年的云资本支出将创历史新高,全球云厂商支出将达到1210 亿美元,全年达到2270 亿美元。美银认为,当前市场刚刚进入AI基础设施建设的第2年,仅在2024第一季度Meta、谷歌、微软等云厂商大幅上调云资本开支,全年同比增长39%。甲骨文也宣布,2025年的资本支出将是2024年的2倍。 著名科技产业分析师Ben Thompson在对微软CEO Satya Nadella和CTO、DatabricksCEO进行系列专访后总结,Nadella在回答关于谷歌和AI的问题时说:“我认为市场上总有空间进行纵向整合。我总是会回看‘盖茨-格鲁夫模式’ ,又称Windows-Intel模式,强调通过控制关键技术和建立开放合作的生态系统,来实现持续的竞争优势,‘苹果模式’,谷歌是AI届的苹果,或许还有新谷歌模式,即纵向集成模型。我认为这两种模式都有戏。”在回答未来模型被商品化后,将发生哪些新变化?微软CEO Nadella分享了三点。 亮点1,微软最终并不像一个企业集团,必须有一个架构的凝聚力。客户关心微软带来的整合价值,但他们也非常关心每件事情是否具有竞争力。事实上,微软的最佳状态不仅仅是整合,而且必须加上堆栈每一层的竞争力。 亮点2,微软从云端业务学到的经验教训是,AI公司不是一个运营不同业务的企业,而是微软所有产品组合的技术堆栈。在这次人工智能转型中,任何控制业务资本支出的企业都很可能会遇到麻烦。 亮点3,微软从2024年初至今的大部分行动,都集中在将AI模型业务从对特定合作伙伴的依赖中抽离出来,特别是通过公司自管的AI开发平台进行管理和优化。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧