今天是2024年2月16号,农历大年初七。在全国人民还在放假中,或者在返城的路上时,OpenAI发布了全新的文本转视频服务,Sora,并且提供了完全由Sora生成的48部视频。第一部视频是一位时尚女性走在东京街头,街景的立体和景深、画面的细腻程度、人物的真实感让我完全无法想象这是人工生成的,完全就是一部大片的感觉。当镜头拉近人物面部特写的时候,墨镜的立体感和人物脸上皮肤的真实感再次让我震惊。后面几幅,雪山里奔跑的猛犸象,无人机拍摄视角的海浪冲击加州Big Sur悬崖,还有充满想象力的两艘海盗船在一杯热黑咖啡的汹涌澎湃中上下起伏,则完完全全是好莱坞大片的感觉。因为是在春节这个时间点发布,其中一副视频还是国内街头舞狮庆祝春节的场景,可谓用心;在这幅视频中,人头攒动,带有牌楼的老街远处就是高楼大厦,附近是低矮的老楼,跟我刚刚去过的某沿海城市非常的像。 OpenAI对Sora的官方定义是,an AI model that can create realstic and imaginative scenes from text instructions,翻译过来是“Sora是一个能够根据文本指示生成真实的和想象的场景的人工智能工具“。 OpenAI对Sora的介绍,也主动提到了Sora的weakness,也就是暂时的弱点。这是我第一次在一个公司对自己的产品介绍中主动提到weakness。OpenAI说,Sora可能还没有办法完全明白特定场景中的因果关系,并且举了一个例子,说“可能一个人在视频中吃了一口饼干,但视频中的饼干被咬了一口之后,并没有出现咬痕,还是一块完整的饼干”。关于weakness,OpenAI还提到了Sora可能会对输入文本,也就是Prompts中的空间细节描述,无法完全理解,比如“把左和右混淆”,Sora可能也无法完全理解输入文本prompts中提到的一系列先后发生的事件顺序,比如“无法准确跟从一部移动的摄像机的镜头“。我非常喜欢这样的介绍方式,举出具体的例子,让读者或用户能够理解到底在说什么。除了weakness,OpenAI对Sora的安全性也主动描述了顾虑,并且强调在请第三方专业公司Red Teamers帮忙做内容审查。我个人非常欣赏这种产品发布时的坦诚,跟国外以及我们国内很多公司的产品发布会的风格形成鲜明对比。 跟GPT或者OpenAI的ChatGPT一样,Sora用的仍然是Transformer架构,这种架构使得大规模推广Sora服务成为可能。Sora是基于OpenAI的多模大模型Dall-E开发的,Sora也可以把图片转换为视频,还可以把视频输入再扩展内容,或者把已有视频里缺失的内容补齐。 在所有Sora生成的视频里,我没有听到任何声音。在OpenAI的宣传里也没有专门提到Sora目前是否同时有声音输出能力。另外官方现在说Sora能生成“up to one minute”视频,展示的所有视频都还没有这么长。现在还无法知道生成更长视频的效果和速度如何,对于创作者,成本当然是另外一个重要考虑因素。
最近两三年大家经常听说“GPT,大模型,生成式AI“等。再往前些年呢,普遍说的都是”大数据,机器学习,人工智能“。那么这些概念到底都是什么含义呢?今天我们就用普通话把他们都说清楚。 人类历史上第一次正式出现AI的概念,是在1956年,在美国的Dartmouth大学,一群当时顶级的计算机和数学学者聚在一期,展开了为期6周的workshop,来探讨让机器能够有人类智能的可能性。今天人工智能的主要研究方向,是“让机器,英文叫machine,能够看懂、读懂、和听懂人类能看到、听到的内容“。到今天为止,在人工智能领域,没有任何一个算法是专门设计为来教会计算机“思考”的,所以机器是不会思考的。 2007年斯坦福大学著名华人学者、人工智能领域世界级专家李飞飞教授和普林斯顿大学的李凯教授发起的Project ImageNet,是人类历史上第一次通过人工筛选标签处理过的海量高质量的图片数据、去训练最适合图片及视频处理的机器学习的CNN算法,从而得以让机器能够看懂识别出各种物体。这是一个经典的机器学习过程,也是一个史诗级的探索,因为在2007年,世界上刚刚出现亚马逊云服务,谷歌云在2008年才出现,而对ChatGPT投入巨资的微软,在2010年才发布云服务。 让机器能够读懂的各种人类文本的“大模型”,Large Language Model,简称LLM。大模型之所以叫做大模型,是因为大模型通用到了几乎是懂得人类文明的所有学科知识;大模型之所以有这样的能力,是因为是用了几乎是全网的数据来训练。 GPT是Generative Pre-trained Transformer的缩写。GPT是大模型的一种实现方式,GPT能够读懂人类的文本,并相应的生成文本。GPT没有再用卷积神经元模型,也就是CNN模型,而是用了transfomer这样一种架构;Transfomer相对于比卷积神经元模型CNN,极大的缩短了训练的时间。GPT模型的训练数据,是用的unlabeled data,也就是没有打过标签的数据,unlabeled data意味着不需要人工去对文本进行标签等处理,这极大的降低了学习数据的门槛。正式因为GPT采用了transformer这样的架构来缩短训练时间,又使用unlabeled data来训练模型,才在人类历史上第一次让大模型的实现成为可能。 而ChatGPT,是OpenAI公司基于GPT架构及实现,开发的一个用于文本聊天的对话工具。
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧