第170集 李政道:物理的挑战!

田丰说

关注《田丰说》,每天3分钟,掌握全球科技大事件!本视频由商汤“如影”数字人APP生成。 当地时间8月4日凌晨,世界著名科学家、诺贝尔物理学奖得主李政道先生逝世,享年98岁。李先生在量子场论、基本粒子理论、核物理、统计力学、流体力学、天体物理等诸多领域为全人类做出了开创性、具有里程碑意义的重大贡献。李政道先生的一篇代表文章《物理的挑战》曾给田老师带来很多启发,今天分享给家人们。 第一,基础科学是水,应用科学是鱼,水大鱼大,从1905年到1925年爱因斯坦的狭义相对论,以及海森伯、薛定谔、狄拉克、费米等人的量子力学理论成为人类科技的奠基石,原子结构、分子物理、核能、激光、半导体、超导体、计算机等20世纪绝大部分科技文明都来源于这些基础理论。 第二,自古科学出少年,中青年科学家能改变一个国家的命运,爱因斯坦25岁提出狭义相对论,玻尔27岁提出量子理论,狄拉克25岁完成狄拉克方程式,海森伯24岁、费米25岁、泡利25岁、薛定谔37岁都发表了全球瞩目的科学成果,费米41岁建成第一个核能反应堆,李政道29岁、杨振宁34岁创立宇称不守恒理论,沃森27岁、克里克39岁发现DNA双螺旋结构。 第三,实验出真知,不能直接接受别人的结论,1940年代,李政道曾和导师费米做了世界上最大的计算尺,来计算太阳中心的温度。 第四,中国古代物理学很发达,商朝甲骨文记载了全世界最早的新星观测,北宋宋仁宗记录了全球最早的超新星爆发。公元前5世纪屈原《天问》中提出“以苍璧礼天,以黄琮礼地”就是人类5千年前最早的天文观测仪器。公元758年,唐代大诗人杜甫在《曲江二首》诗中说:“细推物理须行乐,何用浮名绊此生。”成为“物理”一词的最早历史记载。为什么中国古代科学强、近代科学弱?李政道先生认为根本原因是我们没有太注重基础科学。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏、分享加关注!

2分钟
17
1年前

第169集 微软Azure AI,加速GitHub“应用开发变革”!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,2023年是“AI产业化”的一年,通用基础大模型研发火热。2024年是“产业AI化”的元年,大量传统企业都开始调用、调优基础模型,服务自己的业务场景,但受限于计算力有限,大量企业客户采用云侧AI服务,也就是大家常说的“模型即服务Model as a Service”、“模型工厂”,AI辅助编程云服务融入通用开发工具平台,成为全球发展趋势。 全球AI要闻,微软AI与GitHub平台深度整合,革新AI应用开发过程。 微软宣布将Azure AI云服务与GitHub开源平台深度整合,面向超过1亿人的全球开发者,通过GitHub Codespaces提供快速原型开发环境,利用Visual Studio Code实现代码生成和调试,直接在GitHub中访问、使用Azure AI服务,包括代码生成、AI辅助编程、AI自动化测试等功能。Azure AI提供多家主流模型,开发者可通过GitHub Models免费实验和比较不同的模型。 GitHub CEO Thomas Dohmke表示,推出Models功能标志着GitHub的又一次转型,从通过开源协作创建AI,到借助AI力量创建软件,再到如今推动AI工程师的崛起。上周微软季度财报显示,编程助手服务Copilot正在推动GitHub商业增长,该开源社区年收入已达20亿美元。2024年,Copilot占GitHub收入增长的40 %以上,Copilot净增业务规模比当初收购GitHub体量还要大。 与海外不同,国内企业客户更偏爱私有化部署AI模型服务,以保障数据安全,所以商汤科技推出了企业级一体机,支持千亿模型加速和知识检索硬件加速,节约80%推理成本,AI辅助编程的“小浣熊代码大模型”一体机每台售价35万元起,支持100人使用,每日人均成本4.5元。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏、分享加关注!

2分钟
10
1年前

第168集 马斯克:机器人是最大数据源!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,合成数据是以物理数据为“种子”,高质量的物理数据越多,则合成数据越多,所以具有物理交互能力的机器人、智能车等硬件终端,将为AI公司获得源源不断的多样化、即时性数据。 全球AI要闻,马斯克强调,Grok模型将拥有未来最大的数据源。 8月3日,著名科技播客Lex Fridman对特斯拉CEO埃隆·马斯克的最新专访中,马斯克强调实时数据在AI竞争中的重要性,数据如F1赛车,他说:“一级方程式赛车比赛中,赛车和车手哪个更重要?两者都很重要。如果车不快,即使是最好的车手也会输。”马斯克指出,新一代大模型Grok 3最快2024年年底发布。领先的AI公司已经抓取了所有Twitter数据,但实时数据的即时性使Grok模型具有领先优势。随着特斯拉和数百万辆汽车提供的实时视频数据,以及Optimus擎天柱机器人面市,未来可能会有数亿甚至数十亿台Optimus机器人,它们将从现实世界中学习大量知识。“这将成为最大的数据来源,因为现实是可扩展的,设备规模与数据规模成正比。” 亮点1,马斯克非常有信心,他提出可能在未来一两年内,植入Neuralink的人将胜过职业玩家。从AI竞争来看,你必须拥有最强大的训练计算力。训练计算的改进速度必须比其他人都快,否则就赢不了。 亮点2,你使用训练计算的效率有多高?进行推理、使用人工智能的效率又有多高?这显然取决于人类用户的才能。你拥有哪些独特的数据权限,也将起到重要作用。Grok后续版本的对话能力,甚至能进行严肃、客观、严谨的政治讨论。 亮点3,人类生成的数据量可能不如预期的多,但Optimus擎天柱机器人将能通过在现实世界中学习产生大量有用的数据,这将是AI发展的重要数据来源。 亮点4,第一性原理的思维五步法:首先,质疑需求,无论提出这些需求的人有多聪明,需求总是有一定程度的愚蠢。第二,是尝试简化,去除那些并非绝对必要的元素,因为聪明的工程师最常犯的错误是,优化一个不应该存在的东西。第三,继续简化删除,这个过程会很痛苦。第四,如果某件事可以加速,那它就可能比现在完成得更快,但在尝试删除和优化前,不要加速。第五,就是让事情走向自动化。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏、分享加关注!

3分钟
8
1年前

第166集 Stable Diffusion作者,发布开源“视频大模型”!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,文生图模型应用属于专业型垂直市场,而视频模型则属于大众十分喜爱、广泛尝鲜的应用类型,当然视频生成收费也会比图片生成更贵一些,高端的AI科研团队嗅觉十分敏锐,二次创业或为新一轮AI PC浪潮带来视频类爆款应用。 全球AI要闻,开源文生图“新玩家”,将发布SOTA水平的视频生成模型。 8月1日,开源文生图模型公司Stable Diffusion的原作者团队,宣布推出全新图像生成模型FLUX.1,包含专业版、开发者版、快速版,其中前两款模型击败SD3-Ultra等主流模型,较小规模的模型版本也超越了Midjourney v6.0、DALL·E 3等更大参数模型。FLUX.1同时开放了API,三款模型价格分别是生成每张图片约0.4元、0.22元、0.022元。 FLUX.1背后公司名为黑森林实验室BlackForest Labs,由Stable Diffusion原团队、SD模型主要作者之一Robin Rombach组队成立,致力于研发优质多模态模型并坚持开源,已完成3100万美元的种子轮融资。Black Forest预告将发布SOTA视频模型,即当前技术指标行业内第一。从官方放出的Demo视频来看,无论是流畅度、稳定性还是物理模拟都达到第一梯队水平。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏、分享加关注!

2分钟
27
1年前

第165集 Hugging Face发现“AI裁判”存在偏见!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,当前大部分评测榜单都是采用最领先的冠军模型给其他被测模型打分,这解决了大量题库判分的时间和效率问题,但却忽视了模型的最终用户是人类,人类的主观体验、客观要求的独特性,所以会带来评测与用户和专家体验存在差异,“遇事不决、人机结合”通常是个好办法。 全球AI要闻,HuggingFace公司呼吁,大模型测评请停止用大型语言模型作裁判! 近日,Hugging Face公司的OpenLLM模型评测排行榜维护者Clémentine Fourrier,在Latent Space播客中强调,最新版评测规则下的大语言模型榜单结果显示,有些大模型排名一次性上下跳动了50名,说明模型过拟合、数据污染等问题较多,这导致基准分数膨胀。现在模型发展的速度远超过基准评测更新的速度。Fourrier呼吁,人们应该停止使用大语言模型作为模型评测的“AI裁判”,因为它们在评估中引入了很多微妙的偏见。“当前基准中最难的两个评估是数学和多步推理,而运行整个数据集进行评测非常昂贵。当前评侧题还缺乏复杂逻辑评估,模型在复杂逻辑推理这方面表现很差。如果AI模型能学习如何在基于逻辑任务中的严谨推理模式,那将是AI推理能力的一个重要进步。” 亮点1,LMSysArena模型竞技场能告诉你很多关于用户对AI偏好的信息,但并不总是能说明模型的客观能力。建议是找到3到4个符合你需求的模型,包括响应速度、使用成本、基础能力等条件适配,然后用户进行直觉检查,找出最适合你特定任务的模型。 亮点2,如果让一个“裁判模型”选择哪个被评测模型输出内容更好,它会更喜欢来自自身同一系列的模型。另外,还存在“位置偏见”,“裁判模型”通常更喜欢第一个出现的答案,所以必须打乱被评测模型答案出现的顺序。 亮点3,与其让“裁判模型”给每个被测模型输出打分,应该进行堆叠排名。因为裁判模型并没有专门训练用来打分,所以即使它们可能理解哪个回答更好,准确打分却很难达成。 亮点4,模型评测中有3种类型的人类评估方法。我们人类裁判有人类主观直觉评估、Arena用户投票类型评估,还有付费的人类专业注释员进行评估,这是Scale AI公司的评测方法体系,是非常好的改进方向。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏、分享加关注!

3分钟
30
1年前

第164集 谷歌大模型Gemini勇夺第一!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,在国际基础大模型的激烈竞争中,相对于OpenAI、Anthropic这类领军AI创企,拥有“钞能力”的谷歌等科技巨头并不占明显优势,这体现了AI战略科学家、优秀青年科学家的关键作用,所以我们常说“人才第一,数据第二,算力第三”,然后孕育出更先进的大模型。当然,科技巨头依靠“无限子弹”的人才、资金、算力等资源,会和AI创企交替领先,互为借鉴。 全球AI要闻,谷歌最强模型Gemini 1.5 Pro更新,超越GPT-4o! 继昨日放出最强端侧 Gemma 2-2B小模型后,8月2日,谷歌宣布推出Gemini 1.5 Pro实验版本 (0801)。Gemini团队关键成员Simon Tokumine称这是谷歌迄今为止制造的最强大、最智能的Gemini模型。用户能通过Google AI Studio和Gemini API进行测试和反馈。官方评测分析,Gemini 1.5 Pro拥有200万上下文长度,各项指标均夺得硅谷大模型影响力排行榜LMSYS ChatbotArena榜首,领先于OpenAI公司的GPT-4o和Anthropic公司的Claude-3.5 Sonnet等强大竞争对手,形成“三分天下”格局。 但在编码、复杂限定提示词Hard Prompt 领域,Claude 3.5 Sonnet、GPT-4o、Llama 405B仍然处于领先地位。虽然Gemini 1.5 Pro(0801)版本取得了高分成绩,但它仍处于实验阶段,这意味着该模型在广泛使用之前会有进一步修改与提升。 亮点1,谷歌宣布了其他版本模型降价,例如Gemini 1.5 Flash从8月12日起,输入Tokens成本最多降价85%,输出Tokens成本最多降价80%。 亮点2,谷歌云香港负责人强调,现在对客户的真正价值不仅在于提供出色的模型,更关键的是为你提供整体大模型生态系统,让用户能够轻松访问、评估和大规模部署这些领先模型技术。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏、分享加关注!

2分钟
5
1年前

第163集 英伟达黄教主剑指“机器人大脑”!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,Transformer架构基础语言模型极大推动了“ChatGPT时刻”的到来,人形机器人同样需要通用基础模型,英伟达正在不遗余力地研发“机器人大脑”,剑指机器人时代的关键操作系统,我国机器人产业“重硬轻软”,建议集中力量扶持AI科研公司投入机器人通用基础模型的专项研究。 全球AI要闻,英伟达重磅更新,下一代人形机器人基础模型发布。 7月30日,英伟达创始人黄仁勋在SIGGRAPH大会中分享了人形机器人通用基础模型Project GR00T的重大更新。Demo中涵盖了英伟达建立的三个计算平台,包括AI、Omniverse和Jetson Thor,用于简化和加速AI开发者工作流程。黄仁勋说:“通过这些计算平台的共同赋能,我们有望进入由物理AI驱动的人形机器人时代。最引人注目的是,开发人员可以使用苹果 Vision Pro远程操控人形机器人执行任务。” 英伟达在仿真中将这些数据扩展千倍甚至更大。通过GPU加速仿真,人们现在充分利用算力来换取耗时、耗力、耗资金的人类采集数据工作,这突破了传统数据收集各种物理限制,显著加速了人形机器人的发展。英伟达推出了NIM微服务、OSMO编排服务等新软件工具,大幅缩短了机器人开发周期。英伟达公司还启动了“人形机器人开发者计划”,让全球更多开发者能够提前享用。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏加关注!

2分钟
15
1年前

第162集 扎克伯格“下一代大模型需要10倍算力”!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师提出“四新飞轮”,即AI科技发展必须经历新基建、新终端、新交互、新服务四个阶段,目前仍处于AI算力基建的重大投入期,伴随公共AI算力价格的持续下降,大量新型AI终端涌现,同时出现了GPT-4o、日日新5o为代表的多模态感知、语音交互新方式,以及AI数字人、具身智能等新应用服务。没有新基建的规模化发展,就无法迎来适配AI应用软件的硬件普及,所以谷歌、微软、Meta都采取大笔预算投资算力基建,抢夺AGI时代的“战略制高点”。 全球AI要闻,AI持续带动Meta广告,Llama 4大模型将在2025年发布。 7月31日,Meta发布了季度财报,公司营收超过390亿美元,同比增长22%,连续四个季度营收同比增速超过20%,利润135亿美元,同比增长73%,AI显著推动广告业务增长。在财报电话会上,Meta CEO马克·扎克伯格说到,Llama 4可能在明年推出,下一代大模型需要的AI算力几乎是Llama 3.1的10倍,相当于数十亿美元的预算投资。目前Meta AI助手已经集成到Facebook、Instagram和WhatsApp等产品,“预计数年内不会实现盈利”,但能够赋能企业在WhatsApp中运营AI代理来服务大量客户,广告业务仍是Meta最核心的收入来源。 2024年度Meta总资本支出将在370亿到400亿美元,相较预期有所上调。扎克伯格强调:“很难预测AI趋势在未来多代产品中会如何发展,但我宁愿冒险提前建立产能,也不愿错过机会!” 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏加关注!

2分钟
3
1年前

第161集 “谷歌时刻”最安全小模型!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,用领先大模型“瘦身”出小模型,具有广阔的商业前景,例如部署在新一代AI手机、AI 笔记本、AR眼镜、智能汽车等终端上,而用户对终端模型的安全要求很高,所以如何使用AI技术来增强内容过滤、可解释性、可靠性、鲁棒性,成为大模型公司的科研重点。教员在《矛盾论》中告诉我们“有矛必有盾”,采用“AI for AI”机制,就是用安全模型监督新一代模型,用魔法打败魔法,用复杂技术解释复杂技术。 全球AI要闻,谷歌上新最安全端侧小模型Gemma 2-2B。 8月1日,谷歌DeepMind最新发布Gemma 2-2B小模型,拥有20亿参数量,在业界Chatbot Arena竞技场排行榜超越了千亿参数量的GPT 3.5-175B和Mixtral-8x7b。谷歌在TPU v5e芯片上计算,使用2万亿tokens数据集训练而成。Gemma 2 -2B这个20亿参数小模型是从更大的模型中蒸馏而来,所以产生了非常好的结果。由于小模型占用空间小,特别适合在各种终端硬件上高效运行,从边缘设备到笔记本电脑都适配。网友实测发现,对于9.9和9.11两个数字谁大的问题,Gemma2 2B回答清晰正确。 亮点1,谷歌还同时发布了内容安全新模型ShieldGemma,这是一套基于 Gemma 2 构建的安全内容分类器模型,用于检测有害内容。根据最优F1和AU-PRC评测分数,ShieldGemma优于现有的安全分类器。针对网络上常见的仇恨言论、骚扰、色情内容和危险内容,有2B(20亿)、9B(90亿)和27B(270亿)三种参数规格。2B 模型专为在线内容分类而设计,更大的版本适用于离线大批量数据处理应用。 亮点2,谷歌新发布的还有GemmaScope模型,是一种用于可解释性的开放套件工具模型,在Gemma 2模型的每一层和子层上都有数百个稀疏自动编码器(SAE),SAE自动编码器在训练阶段需要大量计算,相当于GPT-3千亿参数量大模型算力的22%,用模型来提高可解释性,保障人工智能的安全性。 亮点3,SAE就像AI内部运作的“显微镜”,能帮助人类破译整个大模型,目前仍需要大量研究工作。使用SAE分析模型的内部决策,采用超过400个SAE覆盖Gemma 2 2B和9B模型的所有神经网络层,将Gemma 2处理的密集信息扩展为更易于解释、易于阅读的形式。 亮点4,在Scale AI公司最新的SEAL Leaderboard鲁棒性排行榜上,谷歌Gemini 1.5 Pro实测第一,是目前规模对抗鲁棒性排行榜上最安全的模型。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏加关注!

3分钟
5
1年前

第160集 新版Midjourney绘画“大美无形”!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师是AI绘画的忠实用户,也是商汤秒画、Midjourney、StableDiffusion等AI绘画工具的“老画师”,每个人都有表达内心对美好生活向往的欲望,所以AI工具一直在向着更美丽、更真实的方向发展,同时田老师代表广大画师们在此呼吁能否再便宜些、再快速些?国内的画师们可以尝试免费开放的商汤秒画,尤其是7月“秒画AIGC大模型Artist_v1.0.0正式版”和“秒画趣拍”刚刚上线, 堪称具有革命性、趣味性、高保真的AI绘画产品,最受用户欢迎的照片“黏土滤镜”大热,包括“欧美黏土”和“清新黏土”画风一浓一淡,家人们可以根据自己喜爱的风格在秒画上制作属于自己的黏土风照片。 全球AI要闻,Midjourney文生图重大更新,更一致、更美了! 7月31日,Midjourney宣布更新,v6.1版本现在已开放体验。按照官方介绍,总体效果更加美丽。此次版本共提升了八个方面能力,尤其是具有更强的一致性,“极大地提高了图像质量、连贯性和文本,并配备了全新的个性化模式和代码版本化。Midjourneyv6.1更智能、更快速、更清晰、更美观。” 新版本更新了q2模式,能增加更多纹理,但需要更长计算时间,大约增加25%的等待时间。官方指出,v6.2版本将在下月推出,会做更多升级,比如文字方面,目前他们需要先收集大量用户使用数据。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏加关注!

2分钟
15
1年前

第159集 2024年秋季OpenAI重磅发布计划!

田丰说

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。 田老师认为,声音是最具感染力的表现形式,超级拟真的人类声音AI助手将走入各行各业、千家万户。能感受谈话对方情绪变化、环境变化的AI语音交流,正在成为所有智能终端、服务窗口的“必杀技”,美国有OpenAI的GPT-4o,正在融入近十亿苹果手机终端,而中国也有多模态感知、语音交流的商汤日日新5o,成为每个青少年、成年人的生活小助手、工作好帮手。 全球AI要闻,2024年秋季,OpenAI全面放开高级语音模式。 7月31日,OpenAI在X官方账号宣布,将在ChatGPT中向一小部分Plus付费用户推出高级语音模式,秋季将向所有Plus用户推出。所谓的高级语音模式将提供更自然、实时的对话模式,允许用户随时打断,并能感知和回应情绪。OpenAI用100多名外部红队人员测试了 GPT-4o的语音功能,涉及全球45种语言。为了保护个人隐私,对模型预设了四种声音说话,还引入了新的过滤器来实施防护,阻止对暴力或受版权保护内容的请求。OpenAI称:“从这次阿尔法测试中汲取的经验将有助于我们为每个人提供更安全、更丝滑的高级语音体验。”OpenAI计划在8月初分享有关GPT-4o功能、局限性和安全评估的详细报告。 本周一,OpenAI签署了一份致立法者的信函,与微软、Meta、Palantir、Cohere、亚马逊等公司一起支持美国人工智能安全研究所。美国《未来人工智能创新法案》正式授权美国人工智能安全研究所,作为制定人工智能模型标准和指导方针的联邦机构,该研究所会与私营组织、公共组织合作,“最大限度地降低人工智能这项新技术带来的潜在风险”。 本周,OpenAI GPT-4o开始测试64K“长输出模式”。Alpha版测试用户能使用“GPT-4o-64k-output-alpha”API端点访问。从推理角度来看,长输出的成本更高,因此该模型的定价会相应提高,以匹配成本开支,每百万输入token定价为6美元,每百万输出token定价是18美元。 每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏加关注!

3分钟
5
1年前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧