时长:
9分钟
播放:
148
发布:
4个月前
主播...
简介...
被称为“AI 教母”的李飞飞博士昨天接受了创业孵化器 Y Combinator 的访谈,在访谈中分享了她投身人工智能领域的心路历程、关键贡献以及对未来的展望。
- ImageNet 的开创与影响:她表示,自己的整个职业生涯都在追逐那些“难到近乎妄想”的问题。在2009年,当她还是普林斯顿大学的助理教授时,计算机视觉领域面临着数据匮乏的巨大挑战,算法(如神经网络)也无法有效泛化。
为此,她和团队在2007年左右大胆押注,认为数据驱动的方法是机器学习范式转变的关键。他们决定从互联网下载数亿张图片,并创建了ImageNet——一个包含了全世界视觉分类体系的数据集,用于训练和测试机器学习算法。ImageNet 项目的初衷是解决物体识别问题。
ImageNet 公开后,最初的几年里效果并不理想。直到2012年,由 Jeff Hinton 团队(Supervision)开发的 AlexNet 在 ImageNet 挑战赛中取得了突破性进展。这是数据、图形处理器(GPU)和神经网络首次结合,共同推动了深度学习的崛起。ImageNet 因其80,000多次引用而被誉为 AI 发展的数据基石。
- 从物体识别到场景理解:ImageNet 成功解决了物体识别问题,但李飞飞博士从研究生时代起就有一个更大的梦想——让机器能够理解并讲述场景的故事。她认为,人类的视觉智能不仅仅是识别单个物体,而是能够描述整个场景。
2015年左右,在深度学习技术蓬勃发展之后,她与学生 Andrej Karpathy 合作发表了一系列关于**图像描述(image captioning)**的论文。她甚至开玩笑地对 Andrej 说,能否反过来,根据一句话生成图像,尽管当时这个想法还很不现实。如今,生成式 AI 的发展已使这成为可能。
- 当前方向:空间智能与 World Labs:李飞飞博士认为,计算机视觉的弧线从物体、到场景,现在正在走向“世界(world)”的理解。她已从学术界转向创业,担任 World Labs 的创始人兼首席执行官。
她从进化和脑科学中汲取灵感,指出人类语言的进化耗时不到一百万年,而对三维(3D)世界的理解和互动能力,即视觉能力,则耗时了5.4亿年。这让她坚信,空间智能是实现**通用人工智能(AGI)**的关键缺失部分,也是 AI 领域下一个最重要且“难到近乎妄想”的前沿领域。
World Labs 致力于创建“世界模型”,这些模型将超越平面像素和语言,真正捕捉世界的 3D 结构和空间智能。
她指出,空间智能比大型语言模型(LLMs)更难的原因在于:现实世界是三维的;感知过程会将三维世界投影到二维(如眼睛或相机),这是一个数学上“病态”的问题;世界并非纯粹生成式的,还涉及对真实世界的重建;并且缺乏像语言那样易于获取的大规模空间数据。
空间智能的应用前景广阔,包括创作(如设计师、游戏开发者)、机器人学习、市场营销、娱乐,甚至元宇宙。对于空间数据的收集,World Labs 采取混合方法,并强调数据质量的重要性。
- 创业经历与对青年研究者的建议:李飞飞博士分享了她独特的创业经历,包括19岁时在美国经营自助洗衣店以支持家庭和上大学。她认为自己的“舒适区”就是“扎根并建设(hunker down and build)”,忘记过去的成就或他人的看法。
她给年轻研究者的建议是:不要害怕,大胆去做。她鼓励人们拥有“智力上的无畏(intellectual fearlessness)”,这是成功人士的共同特质。
对于攻读博士学位的学生,她建议寻找那些不会与业界大规模资源(如计算、数据)产生冲突的“北极星问题”,例如跨学科的 AI 研究、理论探索或小数据问题。
她强调,读研应该由强烈的好奇心驱动。
关于 AGI 的定义,李飞飞博士表示她很难区分当下“AGI”与 AI 创始者(如图灵、麦卡锡)最初设想的“机器能够思考”有何本质不同,她认为它们是同一概念的演进。
在开源问题上,她认为生态系统健康发展需要多样化的方法,不一定强制所有公司都开源,但开源的努力应受到保护,因为它对创业生态和公共部门都至关重要。
作为少数族裔女性在 STEM 领域,她坦言有过作为少数派的时刻,但她选择“不过度解读(not overindex)”这些身份,而是专注于学习和创造。
她目前正在为 World Labs 大量招聘具有“无畏”精神的人才。
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论