E4. “产能爬坡”,本世纪最大的锅

近年来,我们经常听到“产能爬坡”这个词,它常常在新兴科技产品的发布会或上市后的宣传中出现。通常情况下,这些产品在发布会前几个月就开始预炒,发布会本身备受瞩目,但产品却迟迟不能面世,或者开始销售后马上断货。这时,“产能爬坡”这个词就应运而生,仿佛完美地解释了“为何如此优秀的产品,却始终难以购得”的现状。 另外一方面,我们又经常听到“产能过剩”,我们是制造业大国,工业制造业占整个GDP的25% - 30%。既然生产能力这么强,为什么还会经常出现“产能爬坡”的现象呢? 制造业的工厂开始生产,通常是需要以下这些环节: 首先是产品设计和研发阶段,做过制造业的都知道,图纸上画好的,完全不意味着生产线上就能没有任何问题的生产出来,即使没有任何新设计、新工艺或者新材料。芯片的制造更是如此。有经验的品牌方,在“产品设计和研发阶段”,就会考虑到生产的可行性和可能性,在这方面的典范就是苹果和富士康。制造经验没有那么多的品牌方,往往是设计上的问题只有到了生产阶段才逐渐发现,导致了“产能爬坡“,实际上是在生产开始之后还要反复进入研发阶段去解决设计的问题。 制造业的第二个重要环节就是采购、包括原材料和零部件采购、以及生产线的预定。那按什么样的节奏下订单、每个订单下买多少件,就是最重要的问题了。好多时候,真实的问题是“市场需求未知,哪一方都不想也不敢第一个订单投入太多,导致没货可卖”。这个时候,“产能爬坡”也及时的出现了。

12分钟
99+
1年前

E3. AI: 友还是敌?探索担忧与放心 - 人工智能的现实与幻想

OpenAI发布新的图像生成工具Sora之后,再一次在全球激起了很多人对AI的担心。在twitter上当天有人评论说“gg Pixar”,然后Elon Musk跟帖说“gg humans”. gg在英语里是good game的首字母缩写,他是一种非常礼貌的方式来表达“游戏或者比赛结束了,同时对对手的体育精神表示敬仰和尊重;gg有时候也是一种讽刺或者挖苦的方式,来表达对比赛结果的沮丧或受挫。无论钢铁侠Elon Musk想表达的是哪一种意思,或者两者皆有,都足以表明他对Sora进展的关注。 OpenAI关于Sora的产品页面也大篇幅提到了“Safety”,主要指对内容的担心,OpenAI用到了“misinformation, hateful content, and bias”,就是“错误信息,仇恨或恶毒内容,以及有偏见的内容“。大模型几乎是用全网内容来训练的,所以用起来才给人一种什么都懂的很厉害的感觉。但正如OpenAI在Sora的产品介绍页说到的,网上的内容存在”错误、误导及偏见”,用这样的内容训练出来的大模型,其输出的内容难免会存在同样的问题,英语里有句谚语叫“gabage in, gabage out“,这句话最早就起源于计算机界,用来形容计算机系统或算法的输出结果取决于输入数据的质量。如果输入的数据是垃圾(garbage),那么输出的结果也将是垃圾。这个谚语强调了数据的重要性,无论多么复杂的计算机系统或算法,如果输入的数据质量不好或有误,那么输出的结果也会是不准确或无效的。我想这也就是为什么OpenAI在”Safety”,也就是安全性上的担心,主要提了内容的“错误、误导和偏见“。 AI是否能取代人类的工作,和某个人是否能取代另外一个人的工作,是一个道理。一个人如果要取代另外一个人的工作,这个人需要确实能比另外一个人把工作做的更好、更快、或者薪水更低所以能节约成本;在机器和人类对比上,机器还有另外两个人类无论如何无法比拟的优势:首先机器通常不需要休息;另外机器尤其擅长反复一直做重复的工作、不停的做重复的工作而不知疲倦不出错,人类就不行,再厉害的操作员连续作业也可能会因为疲劳、厌倦等原因而出错。AI本质上也就是机器,对那些AI能够比人做的更好、未来能更低成本的职业,确实是有取代的条件了。但目前大模型还在不断训练中,训练成本高昂,还需要有商业模式(如何挣钱)才能广泛推广。 如果不想被其他人取代的话,就要有自己不可或缺的价值,就要比其他人做的更好。回想一下Sora生成的那48支视频,时尚女性走在东京街头虽美,但有了Sora这样强大的工具,每个人都可以制作出如此精美的视频;无人机视角拍摄的海浪冲击美国加州Big Surr的悬崖虽壮观,但每个人都可以无需飞到加州、就可以立刻制作出如此震撼的视频。反倒是在那两艘在波涛汹涌的热咖啡里上下翻腾的海盗船,给我留下最深刻的印象。Sora视频大模型再厉害,目前也是要靠人类来输入prompt文本、根据这个具体的prompt文本生成相应的视频,所以输入的prompt的不同,就会生成不同的视频,创意不同、能够写出来的prompt不同,最后生成的视频也会截然不同,创意的价值尤为重要。

14分钟
99+
1年前

E2. 开启未来:探索OpenAI的全新服务Sora

今天是2024年2月16号,农历大年初七。在全国人民还在放假中,或者在返城的路上时,OpenAI发布了全新的文本转视频服务,Sora,并且提供了完全由Sora生成的48部视频。第一部视频是一位时尚女性走在东京街头,街景的立体和景深、画面的细腻程度、人物的真实感让我完全无法想象这是人工生成的,完全就是一部大片的感觉。当镜头拉近人物面部特写的时候,墨镜的立体感和人物脸上皮肤的真实感再次让我震惊。后面几幅,雪山里奔跑的猛犸象,无人机拍摄视角的海浪冲击加州Big Sur悬崖,还有充满想象力的两艘海盗船在一杯热黑咖啡的汹涌澎湃中上下起伏,则完完全全是好莱坞大片的感觉。因为是在春节这个时间点发布,其中一副视频还是国内街头舞狮庆祝春节的场景,可谓用心;在这幅视频中,人头攒动,带有牌楼的老街远处就是高楼大厦,附近是低矮的老楼,跟我刚刚去过的某沿海城市非常的像。 OpenAI对Sora的官方定义是,an AI model that can create realstic and imaginative scenes from text instructions,翻译过来是“Sora是一个能够根据文本指示生成真实的和想象的场景的人工智能工具“。 OpenAI对Sora的介绍,也主动提到了Sora的weakness,也就是暂时的弱点。这是我第一次在一个公司对自己的产品介绍中主动提到weakness。OpenAI说,Sora可能还没有办法完全明白特定场景中的因果关系,并且举了一个例子,说“可能一个人在视频中吃了一口饼干,但视频中的饼干被咬了一口之后,并没有出现咬痕,还是一块完整的饼干”。关于weakness,OpenAI还提到了Sora可能会对输入文本,也就是Prompts中的空间细节描述,无法完全理解,比如“把左和右混淆”,Sora可能也无法完全理解输入文本prompts中提到的一系列先后发生的事件顺序,比如“无法准确跟从一部移动的摄像机的镜头“。我非常喜欢这样的介绍方式,举出具体的例子,让读者或用户能够理解到底在说什么。除了weakness,OpenAI对Sora的安全性也主动描述了顾虑,并且强调在请第三方专业公司Red Teamers帮忙做内容审查。我个人非常欣赏这种产品发布时的坦诚,跟国外以及我们国内很多公司的产品发布会的风格形成鲜明对比。 跟GPT或者OpenAI的ChatGPT一样,Sora用的仍然是Transformer架构,这种架构使得大规模推广Sora服务成为可能。Sora是基于OpenAI的多模大模型Dall-E开发的,Sora也可以把图片转换为视频,还可以把视频输入再扩展内容,或者把已有视频里缺失的内容补齐。 在所有Sora生成的视频里,我没有听到任何声音。在OpenAI的宣传里也没有专门提到Sora目前是否同时有声音输出能力。另外官方现在说Sora能生成“up to one minute”视频,展示的所有视频都还没有这么长。现在还无法知道生成更长视频的效果和速度如何,对于创作者,成本当然是另外一个重要考虑因素。

10分钟
2k+
1年前

E1. 解码大模型

最近两三年大家经常听说“GPT,大模型,生成式AI“等。再往前些年呢,普遍说的都是”大数据,机器学习,人工智能“。那么这些概念到底都是什么含义呢?今天我们就用普通话把他们都说清楚。 人类历史上第一次正式出现AI的概念,是在1956年,在美国的Dartmouth大学,一群当时顶级的计算机和数学学者聚在一期,展开了为期6周的workshop,来探讨让机器能够有人类智能的可能性。今天人工智能的主要研究方向,是“让机器,英文叫machine,能够看懂、读懂、和听懂人类能看到、听到的内容“。到今天为止,在人工智能领域,没有任何一个算法是专门设计为来教会计算机“思考”的,所以机器是不会思考的。 2007年斯坦福大学著名华人学者、人工智能领域世界级专家李飞飞教授和普林斯顿大学的李凯教授发起的Project ImageNet,是人类历史上第一次通过人工筛选标签处理过的海量高质量的图片数据、去训练最适合图片及视频处理的机器学习的CNN算法,从而得以让机器能够看懂识别出各种物体。这是一个经典的机器学习过程,也是一个史诗级的探索,因为在2007年,世界上刚刚出现亚马逊云服务,谷歌云在2008年才出现,而对ChatGPT投入巨资的微软,在2010年才发布云服务。 让机器能够读懂的各种人类文本的“大模型”,Large Language Model,简称LLM。大模型之所以叫做大模型,是因为大模型通用到了几乎是懂得人类文明的所有学科知识;大模型之所以有这样的能力,是因为是用了几乎是全网的数据来训练。 GPT是Generative Pre-trained Transformer的缩写。GPT是大模型的一种实现方式,GPT能够读懂人类的文本,并相应的生成文本。GPT没有再用卷积神经元模型,也就是CNN模型,而是用了transfomer这样一种架构;Transfomer相对于比卷积神经元模型CNN,极大的缩短了训练的时间。GPT模型的训练数据,是用的unlabeled data,也就是没有打过标签的数据,unlabeled data意味着不需要人工去对文本进行标签等处理,这极大的降低了学习数据的门槛。正式因为GPT采用了transformer这样的架构来缩短训练时间,又使用unlabeled data来训练模型,才在人类历史上第一次让大模型的实现成为可能。 而ChatGPT,是OpenAI公司基于GPT架构及实现,开发的一个用于文本聊天的对话工具。

18分钟
99+
1年前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧