Vol.35|新ChatGPT时刻要来了!?Open AI新线索曝光

得体男孩

光头哥爆料,OpenAI在MAC版ChatGPT桌面应用中隐藏了启用/禁用智能体的选项。 从截图来看,确实是传闻已久、代号为“Operator(操作员)”: 而且这则爆料也得到了日常关注苹果方面消息的博主@M1的再次佐证: Operator正在内测中,即将上线MAC版ChatGPT桌面应用…… 根据介绍,Operator能够接管用户PC,直接代替人类自主执行一系列操作(如编码开发应用、订餐,做攻略等等)。 与此同时,OpenAI智能体和其他竞争对手(如Anthropic、谷歌智能体),以及人类选手的跑分对比也曝光了。 先划个重点,在几个评估智能体执行自动化任务水平的基准测试中,OpenAI这边均战胜了Claude智能体。 网友们纷纷激动表示,看起来离发布已经很近了,或许又会是下一个ChatGPT时刻。 而Windows用户则开启了刷屏模式,请不要仅限于Mac、请不要仅限于Mac、请不要仅限于Mac……(OpenAI你听到了吗) 多个基准跑分超过Claude智能体 从光头哥的另一条推文里,我们看到了OpenAI智能体和其他竞品的详细对比。 相关数据来自OpenAI网站,具体为图中标黄部分。 单拉出来看,在OSWorld这个专为多模态Agent设置的基准测试中,OpenAI CUA(据推测可能是驱动Operator的AI模型)得分为38.1%,领先于Anthropic的Computer use功能,但还不及人类自己操作的一半水平。 类似情况也在WebArena(CMU发布的基于Web环境的基准测试)上演。 不过,在WebVoyager(由腾讯AI Lab发布的多模态网络Agent基准测试)则稍有反转,OpenAI CUA取得了87%的好成绩,不仅一如既往地领先Anthropic,还以小幅优势超过了人类(85.3%)。 从一些具体任务的完成通过率来看,有辅助的Operator表现好过完全自主操作,不过偶尔还是比不上带视觉能力的GPT-4o。 有网友据此提问Operator是否不如GPT-4o,对此另有热心网友指出了二者区别: 一个是自主操作,一个是教你做事。 另外,对二者安全性的评估如下,GPT-4o在拒绝非法宣传、极端活动讨论等方面均为100%,而Operator在越狱(Jailbreaks)、进行非法活动以及禁止的金融活动方面没有达到100%。 需要提醒的是,在光头哥看来,以上跑分也可能只是占位符,具体真实性无法保证。(先来个免责声明) 2025:OpenAI重点布局Agent 事实上,Operator这款智能体早在去年11月就有相关爆料。 当时彭博社声称,OpenAI将在明年1月推出它,来替用户自动执行任务。 而现在,也算是进一步佐证了之前的消息。 甚至就在去年底,OpenAI CEO奥特曼也在新年目标中,明晃晃地将Agent排在前列。 而Flag立完后,OpenAI刚一开年也是马不停蹄地开始了相关动作。 上周,OpenAI就为ChatGPT推出了新功能「Tasks」,让AI有了执行力,可以替你完成各种任务。 无论是一次性提醒还是重复执行的动作,告诉ChatGPT你需要什么以及何时需要,它会自动帮你处理。 整体看起来有点偏向日程提醒,更像Agent的初级阶段。 合理推测,Operator将在此基础上有更多、更强的能力表现。 话说,从国内外科技企业对Agent的新追逐来看,今年Agent绝对有好戏看! 据市场研究公司Markets and Markets的分析,AI Agent的市场规模至2030年有望达到471亿美元。 如此吸引下,再加上已经成熟的大模型技术,Agent火爆2025简直不言而喻。 甚至就在今年的CES上,英伟达CEO黄仁勋也对Agent大加赞赏: 未来公司IT部门将成为Agent人力资源部门……(为公司改进大量Agents,从而为各部门提供新支持) 我觉得,2025就是Agent的时代,大家快学起来吧~! (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM

2分钟
43
9个月前

Vol.32|介绍一个国产AI工具——扣子,你的AI应用开发小帮手

得体男孩

扣子是字节旗下的重磅AI应用开放软件 无论你是否有编程基础,都可以在扣子上快速搭建基于大模型的各类 Bot,并将 Bot 发布到各个社交平台、通讯软件或部署到网站等其他渠道。 扣子的功能与优势 用户友好的界面:Coze的操作界面设计合理,逻辑清晰,易于上手,符合用户的使用习惯。 功能丰富:平台提供了包括插件系统、记忆库、工作流等在内的多种功能,用户可以根据自己的需求灵活选择和配置这些功能。 支持知识库和自定义插件:用户不仅可以导入数据到知识库,还可以自定义插件来扩展机器人的能力,提高了系统的可定制性。 多平台部署:构建的机器人可以部署到微信、飞书等社交媒体平台以及企业内部应用程序,增加了系统的灵活性和适用性。 无需编程基础:Coze平台几乎不需要编程基础,模型、插件、知识库等核心技术都进行了封装,使得用户可以快速搭建Bot。 免费使用:至少在现阶段,Coze平台是完全免费的,为用户提供了易于使用的AI Bot开发环境。 集成插件工具集:Coze平台集成了超过种多样化的插件工具,覆盖了新闻阅读、旅行规划等多个领域,支持用户快速为机器人添加功能。 增强聊天机器人能力:Coze平台还提供了工作流、知识库等功能,以及长期记忆和定时任务等,增强了聊天机器人的能力和交互性。 国际版与国内版:Coze有国内版和国际版,国际版提供了更完善的GPT-4模型功能,而国内版可能存在一些限制。 注册网址:www.coze.cn 大家可以自己试试做属于自己的智能体哈~ 我也是用扣子做了自己制作播客的智能体,很方便~ 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM 📻 收听平台: 小宇宙/Apple podcasts ☎️ 联系方式: 📮 [email protected]

5分钟
90
9个月前

Vol.31|理想汽车智驾:通过AI推理过程的端到端自动驾驶

得体男孩

随着 OTA7.0 的全量推送,理想宣布,其 OneModel 端到端 + VLM 智驾系统已经实现了「全场景端到端」能力。 与之同时上线的还有行业首创的 AI 推理可视化能力,它首次将自动驾驶过程中 AI 模型思考推理的过程可视化展现出来,让我们第一次看到了 AI 的思考和执行过程,因此也可以更加放心。同时,理想也成为了国内唯一、全球第二家将端到端技术应用到城市、高速及环路 NOA 场景的车企。 理想表示,自 OTA 5.0 采用 BEV 架构并推出城市 NOA 后,理想内部对 AD Max 启用独立版本号进行管理。过去的一年里,其共完成 12 次 AD Max 的重大更新。 为了让用户更好地感知智能驾驶迭代,随着 OTA7.0 升级,AD Max 的内部智能驾驶版本号将向用户展示,智能驾驶版本升级为 AD Max V13.0。 从车位到车位,覆盖全场景 AI 推理还能可视化 理想的 OneModel 端到端智驾号称拥有极强的覆盖和适应能力,风格更加拟人化,驾驶习惯也更丝滑,它还支持全国的新开通高速、长隧道、城市 / 高速切换点等道路的行驶,可以在大部分路段无降级不断点地智驾通行。 [图片] 据更新说明介绍,我们测试的智能驾驶 OTA 版本是在 800 万 clips(视频片段)基础上迭代的,增加了导航变道的数据配比。 首先吸引眼球的是中控屏上,理想在业内首创的「AI 推理可视化」。它打开了 AI 模型的黑箱,对端到端 + VLM 模型系统的思考过程进行了直接的展示,包括从物理世界输入到决策结果输出的整个过程,并在中控屏或副驾屏上实时显示出来。 [图片] 可以看到,这个可视化界面分为三个区域: [图片] * E2E(端到端模型)—— 其中显示自车、其他车辆、道路车道线、轨迹线预测等信息。蓝色轨迹线代表模型计算过程中判定的正确轨迹,灰色轨迹线则代表模型计算过程中判定的偏移轨迹。轨迹线计算共展示 10 个窗口,代表一种模型输出结果,最终 AI 会选择一条老司机认为最正确的轨迹来执行操作。 * 第二个部分是 Attention(注意力系统)—— 其中显示系统对实时视频流中的交通参与者行为和环境路况进行评估,分析其类型、位置、速度、角度等属性,并辅助端到端模型计算出最佳的行驶轨迹。其中会以热力图形式展示注意力系统的工作状态,其中颜色更暖(偏红)的区域代表对智能驾驶决策影响更大的区域。 * 第三个部分则是 VLM(视觉语言模型)—— 它展示了视觉语言模型的感知、推理和决策过程,像我们常见的大模型应用一样将车载摄像头看到的交通情况用文字的形式加以解释。当识别到有对智能驾驶决策有影响的环境路况和交通规则变化时,VLM 能够及时感知信息,并做出合理的推理决策。 现在你能看到 AI 是如何做出决策的。第一次打开智能驾驶还会有些紧张,过不了一会儿悬着的心就放了下来,人与车之间的疏离感也减少了。 在北京城区内行驶了一个上午,可以看到,端到端智能驾驶系统与过去的智能驾驶相比体验截然不同。它的工作区域覆盖面更广,也更聪明。在通过匝道等大曲率弯道时,AI 的操作已经足够稳定。 [图片] 智能驾驶系统在碰到前方慢车可以更早地变道,遇到大货车也会向另一侧稍微躲避,遇到加塞情况刹车也更加从容。 [图片] 此前,理想的城市智能驾驶(6.0 版本及以前)是基于 BEV+OCC 和 Transformer 的业内主流方案。在这样的技术体系之上,很多车企开启了部分城市的无图 NOA,但这种智能驾驶的效果仍称不上完美。 新版本的端到端辅助驾驶则带来了巨大的提升。它保留了激光雷达的数据输入,保证了安全性的下限。另外,它不仅模型是端到端的,实现的驾驶体验也是「端到端」的 —— 解决了智能驾驶的最先和最后 100 米问题,能做到从家中车位到目的地车位的全程智能驾驶,顺利通过停车场闸机、红绿灯,合理避让横穿马路的行人、电动车,或是与其他车辆并线博弈。 理想表示,未来两年,当训练数据量达到 2000 万 Clips 时,MPI(每次干预行驶的里程数)有望达到 500 公里。 当然,目前的智能驾驶还是可能会碰到一些无法处理的情况,但在试了试端到端智能驾驶之后,我们至少可以肯定地说,真的不一样。随着这套技术的发展,或许用不了多久它就可以真正做到对老司机的一比一复刻。 端到端 + VLM 大模型 实现降维打击 为什么说端到端的智能驾驶打出了代差?这就要从最近 AI 领域的大模型革命开始说起。 自 2022 年底开始,生成式 AI 席卷了整个科技领域,越来越多的行业开始引入大模型。在自动驾驶领域,人们开始探索视觉语言模型与世界模型等技术,端到端(End-to-End)的智能驾驶成为了新兴的研究方向。 端到端的智能驾驶是指把车辆从摄像头、雷达、激光雷达等传感器获得的数据作为输入,利用单个 AI 模型直接生成控制汽车指令的方法。2023 年 6 月,全球 AI 顶级学术会议 CVPR 2023 的最佳论文颁给了 UniAD 框架,它是业界首个感知决策一体化的自动驾驶通用大模型,打开了以全局任务为目标的自动驾驶架构方向。 在端到端的智驾系统中,大模型通过学习人类司机操作的视频片段,根据人类决策理解画面信息和决策之间的关系,再不断进行实践和调整,比起以往的模块化辅助驾驶,更像人类的学习过程。和 ChatGPT 一样,智能驾驶模型可以在面对前所未见的场景时实现「举一反三」,很大程度上摆脱了对人类编写规则的依赖。 最近一年多时间以来,国内外一众新势力都在频繁提及端到端的概念,认为这将是智能驾驶的技术终局。正如机器人公司正在热捧的「具身智能」,端到端的智能驾驶是给高智商 AI 赋予汽车的躯体,让它在物理世界中行动自如的方法,一旦实用化,显然会是降维打击。 2024 年 1 月 ,特斯拉率先在 FSD v12 版本上实现了端到端智能驾驶的落地,新系统据称只用了几个月的训练时间就击败了之前数年时间积累的 v11 版。 理想成为了紧随其后的第二家,2024 年 7 月,向外界公布了理想 AD 的全新技术方案,并已于 10 月底全量上线。据介绍,理想的双系统基于 E2E+VLM 大模型,是从诺贝尔奖得主丹尼尔・卡尼曼《思考,快与慢》中得到的启示。 基于系统 1 和系统 2 的理论,理想提出了一个全新的自动驾驶架构:使用端到端模型实现类似本能的快思考,保证大多数场景的高效;利用速度偏慢但思考能力上限更高的 AI 模型(DriveVLM)实现少数复杂场景下的处理能力。这样就可以让智能驾驶系统「更像人」。 简而言之,其中的系统 1 是真正意义上的端到端模型,输入是传感器收集到的数据,输出是车的行驶轨迹,全部由一个模型来实现,中间没有任何手工的规则。端到端大幅度提升了安全、舒适和效率,具备更拟人化的驾驶方式。 [图片] 它具有一系列优势: * 首先是高效的信息传递,此前的智能驾驶架构经常包含很多规则,限制了整体的上限。在一体化的模型中,所有信息都在模型内部传递,具有更高的上限,给人们的感受就是更加拟人了。 * 第二是高效计算,单一模型在 GPU 内加载可以一次性完成推理,降低了系统的延迟,体感就是「手和眼」更加协调一致了。 * 第三是技术的迭代速度也变得更快了。由于是一体化的 AI 模型,可以实现完全的数据驱动,可以很轻松地做到周级的迭代。 就像 OpenAI 的 o3 大模型一样,这种智能不是人工设计出来,而是 AI 自己学会的。 [图片] 端到端大模型可以解决智能驾驶过程中 95% 的场景,剩下 5% 的情况就要交由「系统 2」来进行理解和判断。在理想的智能驾驶系统中,系统 2 是由 VLM(视觉语言模型)来实现的。它可以把对于环境的理解、驾驶决策的建议甚至参考轨迹递交给系统 1 来帮助辅助驾驶策略。 [图片] 比如在遇到坑洼的路面,VLM 会指挥车辆降低速度;如果发现实际路线和规划导航不一致,它可以自己重新规划路线;此外,它还能准确地识别限时公交车道、潮汐车道是否可以通行。 这就好像是在副驾驶的位置上有一个教练在实时监督驾驶行为,主动提供建议。 有了成套的方法,接下来还需要验证整个系统的可行性。理想采用了 3D 环境重建加世界模型的方式,结合了多种方法的优点,生成的环境在多个视角上可用,又可以生成更多符合真实世界规律的未见场景,提升了智能驾驶的泛化性。 [图片] 跑通流程以后,理想继续改进了 AI 的训练方法。端到端的学习目标是行驶轨迹,并不像感知任务只需要给出是或否的判断。在日常生活中,即使是同一个司机也可能作出不同的行驶策略,这可能会导致 AI 学习出一些诡异的驾驶行为。因此,理想在训练过程中加入了强化学习,通过奖励函数的设置学习出策略正确的模型。 再往下是部署和优化。VLM 在端侧部署时,工程师们面临着推理时延的挑战。通过从量化到张量算子融合等大量优化技术,理想把 VLM 推理时延从 4.1 秒缩减到了 0.3 秒,业界首次在 Orin-X 硬件上部署了大模型,真正实现了视觉模型在智能驾驶上的实用化。 [图片] 正是这样一套系统,做到了全场景的端到端与可视化,也成为了国内首个车端部署大模型的自动驾驶系统。 理想表示,基于北美实际对比体验,理想端到端的 NOA 驾驶体验,已比肩特斯拉北美 FSD 最新版本 V13.2 水平。 现在的理想 是一家人工智能企业 端到端智能驾驶的突破,是一个从量变到质变的过程。 作为销量靠前的新能源玩家,理想在国内拥有超百万规模的自动驾驶车队,在过去几年积累了超过数百亿公里的行驶里程。理想从所有车主数据中筛选出优质数据,建立了一套「老司机」的评价标准。老司机既要具备好的驾驶技能,也要有好的驾驶习惯。只有不到 3% 的车主通过了考核。 理想在 2024 年年初拥有了 5EFLOPS 的算力 ,再加上智能驾驶团队此前在端到端模型上的预研成果,做到了天时地利人和。2024 年 1 月 1 日 - 12 月 31 日,理想智能驾驶累计用户已超百万人,智能驾驶总里程达 17.2 亿公里。截至去年年底,算力也已提升至 8.1EFLOPS。 此前,理想创始人、CEO 兼董事长李想畅谈了公司的未来发展方向。他认为电动化是上半场,智能化是下半场,理想汽车未来一定会持续发力 AI,最终通过理想汽车的载体来实现 AGI(通用人工智能)。 理想把自己定义为一个人工智能企业,目标是把人工智能进行汽车化,并推动 AI 普惠到每一个家庭。最近一年理想的 100 亿研发投入,近一半投在了 AI 上,它自研了基座模型、端到端加 VLM 的自动驾驶系统,从最开始的论文、技术研发到产品的交付,不断引领着业界风向。 [图片] 可以说,端到端的智能驾驶,是理想长期坚持核心技术自研的必然体现。 李想给 AI 的未来定义了三个阶段: * 第一阶段——成为人类能力的延伸和增强,提升工作效率(L3 阶段),有望在 2025 年实现。在此阶段我们还需要在行驶过程中对 AI 进行监督。 * 第二阶段——成为人类的助手(L4 阶段),能够 100% 自动驾驶并承担相应责任,有望在三年内实现。这会推动新技术的大规模应用。 * 第三阶段——硅基家人,AI 智能体可以自主地工作,帮助人们管理好家庭中的各种事物,人类的记忆也可以在 AI 上得到延续。 (部分资料源于网络) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM 📻 收听平台: 小宇宙/Apple podcasts ☎️ 联系方式: 📮 [email protected]

4分钟
99+
9个月前

Vol.30|Ultrahuman的AI智能戒指“Rare”,奢侈品圈的新宠儿,售价破万!

得体男孩

Ultrahuman Rare系列,世界首款能当奢侈品的智能戒指 在 CES 2025 上,Ultrahuman 推出了全新高端产品线「Rare」,包含三款智能戒指。 从左到右分别为:沙丘(Dune)、沙漠玫瑰(Desert Rose)和沙漠雪(Desert Snow) 除了名字叫「Rare」(稀有)之外,这三款戒指的售价也坚持贯彻落实了「物以稀为贵」的原则。 * 沙漠玫瑰和沙丘款采用伦敦贵金属市场协会提供的 18K 金打造,售价 1900 美元,约合人民币 13700 元。 * 沙漠雪款则是「精心用 pt950 铂金制成,这是一种纯度和声望都极高的金属」,售价 2200 美元,约合人民币 16000 元。 GUCCIXOura 在 2022 年推出的联名智能戒指,功能包含检测睡眠周期、活动休息数据追踪、心率、呼吸率及身体压力(体温)检测等。 当时被吐槽贵得离谱的「真・老钱奢侈品」Gucci 联名款智能戒指也不过 950 美元,这下成了“平替” 而这些天价戒指的功能配置,与品牌旗下 349 美元的 Ultrahuman Ring Air 完全相同。后者已经包含了健康追踪、运动监测、心率检测、睡眠分析等所有基础功能。 主要监测六种数据指标:动态恢复指数、睡眠指数、运动量、压力变化、咖啡因摄入时间、女性健康 * 为什么会那么贵的理由 「Rare」的购买网页上有所解释。 首先是「复杂的手工艺制作」过程。 每一枚戒指都需要经过手工匠人的精心制作。将智能传感器融入 18K 金或铂金材质中,也要比普通智能戒指的制作工艺复杂。 「由技艺精湛的工匠精心手工打造,采用专业的金属加工工艺。」 其次是独特的「概念」 「Rare」系列「捕捉了大自然最迷人现象的精髓。从风雕刻的沙丘那精致流畅的优雅,每一件作品都体现了这片荒漠景观中美与韧性的和谐融合。」 再来是「服务升级」 「Rare」系列购买者将获得终身的 UltrahumanX 会员服务。对于购买了 Ultrahuman Ring Air 的用户,想要享受经期追踪、维生素 D 监测和智能闹钟还需要在 Ultrahuman 的手机 APP 端购买 PowerPlugs 功能,而购买 Rare 系列即可永久免费使用这些高级功能。 最后是「应用场景」 在「Rare」系列的宣传邮件中,Ultrahuman 对于「是否有市场需求」和「目标买家是谁」这两个问题给出了一段一段情真意切的说明。 有人一直在用 Ultrahuman Ring Air 作为订婚和送礼之用。Rare 是珠宝像其他物品一样走向智能化的自然演进。Rare 的目标用户是那些追求独特性和意义的人群。 你,会想买一枚或者送人作为礼物吗?说出你的看法 (我不会XD) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM 📻 收听平台: 小宇宙/Bilibili/Apple podcasts ☎️ 联系方式: 📮 [email protected]

3分钟
53
9个月前

Vol.29|7*24小时为你打工,OpenAI 在智能体领域「开大」了。

得体男孩

2025 新年伊始,OpenAI 在智能体领域「开大」了。 今天,OpenAI 正在为 ChatGPT 推出一项名为「Tasks」的新测试功能,该功能允许用户安排未来的行动和提醒事项。 比如你想要每日天气预报,或者需要一个关于护照到期的提醒,又或者只是在睡前给孩子讲一个笑话…… 现在,ChatGPT 可以通过安排一次性或重复性任务来处理所有这些事务。 OpenAI 用两条推文进行官宣。 「今天我们推出了『Tasks』功能的一个测试版 —— 这是一种新方式,让你可以在将来的某个时间点请求 ChatGPT 为你做事。无论是一次性提醒还是重复性动作,告诉 ChatGPT 你需要什么以及何时需要,它就会自动帮你处理。」 这项功能怎么用? OpenAI 表示,用户需要在 ChatGPT 的模型中选择「4o with scheduling task」,在那里只需要输入你希望 ChatGPT 做什么以及何时完成即可。同时,ChatGPT 可以根据用户的对话主动建议任务,但用户在创建这些建议的任务之前必须明确许可。 所有任务既可以直接在聊天线程中管理,也可以通过配置中的「new Tasks」部分(仅通过 web 提供)进行管理,因此可以轻松修改或取消任务。 在完成任务后,ChatGPT 可以通过 web、桌面和移动端设备提醒用户。值得注意的是,同时运行的任务限制为了 10 个。 除了 OpenAI 官方放出的展示,我们看看 Tasks 功能还能做什么。 比如让 ChatGPT 每天早上帮你查询股票 又比如让ChatGPT 定期在 Canvas 中撰写新的科幻故事,然后发送到收件箱。等等神奇的功能,等待你一一发觉体验 OpenAI 没有具体说明何时(或者是否)向免费用户开放,目前提供了每月 20 美元和 200 美元的订阅选择。 不过值得注意的是,OpenAI 对「Tasks」功能的期望似乎不仅限于简单的计划安排。另据彭博社报道,OpenAI 将于本月发布一个能够独立控制计算机的自主 AI 智能体「Operator」。 与此同时,逆向工程师 Tibor Blaho 发现,OpenAI 似乎正在研发一个代号为「Caterpillar」的项目,可能会与「Tasks」功能集成。 我们不难看出,2025 年将是智能体 AI 崛起的一年。正如黄仁勋在 CES 上演讲所说的,2025 年生成式 AI 将进入「智能体」的时代。 最近,OpenAI 等前沿人工智能实验室的目标是将这些 Agent 功能发展成能够与环境交互、从反馈中学习,并在没有持续人工输入的情况下做出决策的高智能化方案。另外,OpenAI 在畅想 AI 前景时,列出了已经完成、正在进行以及未来将要实现的五个阶段,而此次 Tasks 功能的推出意味着迈出了 Level 3 的重要一步。 [图片] 如果你是 ChatGPT 的付费用户,可以通过在模型选择器中查找「4o 计划任务」选项来开始尝试使用 Tasks。 参考链接:www.theverge.com (部分素材来源于网络) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM 📻 收听平台: 小宇宙/Bilibili/Apple podcasts ☎️ 联系方式: 📮 [email protected]

2分钟
67
9个月前

Vol.26|电商颠覆式革命,所有淘宝天猫商家都能一键图生视频

得体男孩

近日,【淘宝星辰 · 图生视频】工具已重磅上线,并对淘宝天猫商家正式开放! 在主流AIGC背景下,视频生成早已不是单纯的生成算法优化和应用,而是一个更加复杂的、系统性的算法工程,其中人、数据、模型、算力是最核心的四个因素。 在2024年3月,基于Unet Diffusion Model路线研发并上线了阿瞳木动效视频,实现了视频AIGC在电商场景的首次应用落地,在业内产生了一定的传播度和影响力。但是,由于技术路线、数据等多个因素的限制,阿瞳木动效视频在画面稳定性、内容可控性、目标与动作丰富性等关键要素上,仍然存在较大的进步空间。 从去年3月至今,在视频AIGC方向上坚定地持续投入。通过算法、数据、工程等众多团队的密切协作,我们完成了面向生成任务的数据飞轮、自研3D VAE、自研淘宝星辰视频生成大模型(包括Tbstar-T2V、Tbstar-I2V、Tbstar-V2V等)等多个关键模块和模型从0到1的建设。目前,Tbstar-I2V大模型已经应用于【淘宝星辰 · 图生视频】工具中,为用户提供更懂电商的图生视频功能。 体验地址:agi.taobao.com 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM 📻 收听平台: 小宇宙/Bilibili/Apple podcasts ☎️ 联系方式: 📮 [email protected]

2分钟
99+
9个月前

Vol.25|本届CES上AI教育趋势最火,新的风口来了?

得体男孩

今年的科技盛宴CES上什么趋势最火? AI智能体 在AI界呼风唤雨的老黄,也将智能体定位了英伟达未来的一大目标。 有了智能体,伴随着一同产生的,就是AI在各个不同行业的垂直应用。 作为最成功的垂直行业之一,AI教育产品也成为了热门中的热门。 国内选手也大秀肌肉, AI学习机、词典笔等国产AI学习产品也纷纷被搬上展台,在世人面前展示着中国AI教育行业软硬兼备的实力。 教育行业已经满是AI 作为一年一度的科技盛宴,以及消费电子产品的风向标,CES中的展示,包含了过去一年科技趋势的缩影。 所以,AI教育在CES上的火爆也不是偶然结果,说明了其在过去的一年当中,已经成为了一个热门趋势。 在基础模型增长放缓的大背景下,“AI落地看垂域”已经成为了不少从业者的共识,而其中教育行业又是最热门、转化最成功的行业之一。 CES上教育议题的火爆,正是一大有效例证。 甚至美国亚利桑那州还批准成立了一所完全在线的学校,该学校面向四年级至八年级的学生,每天提供两个小时完全由人工智能教授的标准科目课程。 这意味着,这种新颖的教育方式,已经开始被传统的教育从业者所接受。 市场上看,根据贝哲斯报告的预测,到2029年,全球在线教育市场中,仅K-12教育的规模,就会达到8991.59亿元,年均复合增长率7.89%。 美国市场研究机构Adroit Market Research给出的预测数字就更大了,他们认为到2029年,这一市场规模将达到3226.8亿美元,年均复合增长率接近20%。 虽然这样的市场规模不只包括AI,但AI依然是推动在线教育市场规模不断增长的重要原因。 AI教育和之前的在线教育有什么不同?为什么AI教育能够如此成功呢? 因为之前的在线教育,可能只是给人们提供了一种新的资源获取渠道,但AI技术却直接改变了资源本身,而且逐渐渗透并改变了传统的学习模式。 传统在线学习模式的内容生成和处理能力有限,主要依赖于预装的教学内容和数据库,但AI教育能够生成和处理新的学习内容,这一点从根本上改变了知识的传播、获取和构建方式。 不仅智能化程度更高、内容更丰富,而且能够与学生进行实时对话,引导学生思考和解决问题,并针对学习过程给出反馈,带来更强的互动性。 这样一来,AI学习系统就不再是一个只能播放视频课程的播放器,而是真正的变成了一位“老师”。 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM 📻 收听平台: 小宇宙/Bilibili/Apple podcasts ☎️ 联系方式: 📮 [email protected]

2分钟
99+
9个月前

Vol.24|超过70%的消费者在期待生成式AI给他们消费带来改变

得体男孩

生成式人工智能(Gen AI)正在深刻影响消费者的购物习惯。根据卡普杰尼研究院最新发布的消费者趋势报告显示,71% 的消费者希望在他们的购物过程中能够融入这一技术。这一趋势主要受到 Z 世代和千禧一代对个性化购物体验及无缝数字互动的强烈需求所驱动。 报告指出,近一半(46%)的消费者对生成式人工智能在在线购物中的影响感到兴奋,75% 的人表示乐于接受 AI 的推荐,相比2023年的63% 有所上升。同时,超过一半(58%)的消费者表示,他们已经开始用生成式人工智能工具来替代传统搜索引擎,作为寻找产品和服务推荐的首选工具。调查还发现,68% 的消费者希望 AI 能够聚合来自各种渠道的信息,提供一个一站式购物的解决方案。 尽管约70% 的消费者产品和零售企业将生成式人工智能视为具有变革性的技术,实际使用情况却未能达到预期。报告显示,消费者对生成式人工智能的满意度也有所下降,从2023年的41% 降至2024年的37%。因此,零售商需要了解消费者的期望,以便有效地将这项技术应用于实际购物体验中。 与此同时,消费者对快速配送的需求日益增加。数据显示,愿意为快速配送支付更高费用的消费者比例从2023年的41% 激增至2024年的70%。消费者现在愿意为两小时内的配送支付相当于订单价值的9%。65% 的消费者认为快速配送是购物时的关键因素,这一趋势在印度、德国、法国等国家尤为显著。 在可持续性方面,尽管64% 的消费者表示愿意选择可持续品牌,但他们愿意为此支付额外费用的意愿正在下降。报告还发现,消费者越来越渴望获取更多关于所购产品的详细信息,其中营养成分成为他们关注的重点。 此外,AI 影响者和社交媒体在产品发现过程中也扮演着越来越重要的角色。四分之一的消费者表示他们信任 AI 影响者的推荐,而在社交媒体平台(如 Instagram 和 TikTok)上,超过一半的消费者通过这些渠道发现新产品。 67% 的消费者表示在搜索产品时会注意到零售网站或应用程序上的广告。尽管在线广告对消费者的购买决策产生了积极影响,实体店广告的满意度却不高,59% 的消费者认为这些广告内容过于笼统,无法满足他们的特定需求。 (部分素材源于网络) 本期主播:蛋酥酥/猫猫 后期:蛋酥酥 制作人:蛋酥酥 录制支持:KUEENDOM 📻 收听平台: 小宇宙/Bilibili/Apple podcasts ☎️ 联系方式: 📮 [email protected]

2分钟
99+
9个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧