被Stability AI赞助算力,被Open AI招募,这个大模型小团队是?

先见未明

本期嘉宾来自最近小有话题的一个大模型团队。非Transformer架构、作者非“AI正规军”出身、核心成员仅4人,这个叫RWKV的开源模型刚刚被Hugging Face收录入库,也在日前公开了首篇论文。 用嘉宾的话说,RWKV挑战了当下关于大模型的几个共识:Transformer是不是现在的唯一选择?小公司做不了大模型?AI的未来就是云服务?于是,我们的聊天,也从共识和非共识开始。 【本期嘉宾】 罗璇 智能联创兼CPO | 炬星科技联创 | 前阿里机器人产品总监 【时间轴】 03:08 RWKV是不同于TF的新架构,将算法复杂度从n²降到了n 03:50 TF和Open AI被“神话”,GPT成了衡量AI的唯一标准 05:02 TF复杂度不合理,大规模应用瓶颈明显,架构层需要创新 06:14 RWKV的正反面评价、测试结果,成为TF的补充/替代路还有多长? 09:38 未来AI不应是中央式云服务,将来的大模型可能跑在终端上 11:15 算法不做到极致就是在吃算力,现在还未形成好的芯片+OS互相迭代 12:09 小团队怎么做出大模型?大公司算力资源浪费在哪里? 14:22 与Open AI和Stability AI的交集 16:56 闭源是闭不住的,大模型真正的门槛不是源代码 19:30 RWKV希望成为Linux,元智能想成为安卓 22:30 过去的开源大模型缺乏强有力的主导方向,开源需要vision 相较于已经经过6年发展、也证明了自己独特价值的TF架构,RWKV无疑还是个小婴儿。但我觉得RWKV团队这种出于真实使用需求,去寻求更优解的精神,正是创新者的品质之一。期待看到RWKV后续scale up的发展,以及商用方面的案例。 【很高兴认识你】 散装智能,一档有人情味的科技播客。我们希望探索科技演变所辐射的所有面向,在这里,没有冰冷的技术,只有闪光的人和故事。 想交流?想表达?微信添加ziyuanao,或关注公号:散装智能

29分钟
99+
2年前

ChatGPT风暴中的AI人:大模型内卷?科研为何难?| Vol.0

先见未明

从上世纪50年代NLP学科出现,到2022年ChatGPT席卷全球,科研又一次走过漫长而曲折的道路,抵达市场。原本并不高调的NLP从业者们,一夕之间被推到风暴中心。 正在一线的大模型研究员,如何看待和应对ChatGPT冲击波?科研中又有哪些不为人知的酸甜苦辣?让我们听听圈内人的真实声音。 【本期嘉宾】 何师傅 中科院博士 | NLP算法工程师 | 国内某AI机构大模型组 【时间轴】 02:40 关于大模型、NLP,普通人需要了解什么? 07:23 ChatGPT打破了国内做科研的固有观念 09:42 OpenAI 早期研究中的涌现(Emergence) 12:15 ChatGPT实力吊打同类,一线从业者忙造轮子 16:44 NLP人“被猎头”现状,喧嚣中保持清醒 18:20 面对大模型内卷,与自己赛跑 20:37 幸福的烦恼:论文层出不穷,开源还不够,算力限制研究速度... 21:59 对齐(alignment)是个“不性感”的课题,过去缺资源/少人做,但却对大模型的应用至关重要 25:18 OpenAI成立8年迎来ChatGPT,科研必须试错,需要耐心 26:55 人们对大模型有过高期待 29:21 通往通用人工智能的路径,没有范式 30:40 你对AI的终极想象? 【很高兴认识你】 散装智能,关注科技,更关心人。我们希望探索科技演变所辐射的所有面向,在这里,没有冰冷的技术,只有闪光的人和故事。 想交流?想表达?微信添加ziyuanao,或关注公号:散装智能

33分钟
99+
2年前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧