简介...
自从 ChatGPT 横空出世,几乎所有关于大模型的讨论都离不开 Transformer,那 Transformer 架构也支撑了这一轮生成式 AI 的快速发展。然而在 Transformer 架构的背后,行业也遇到了难以回避的瓶颈:推理和训练成本居高不下,长上下文能力依赖庞大的显存和算力,端侧部署和商业落地困难。Transformer 的困境让神经网络的另一条路径重新被审视——那就是RNN,循环神经网络。
今天我们请到的嘉宾,是元始智能的联合创始人和 COO 罗璇。他与另一位创始人彭博一起持续的探索基于循环神经网络的可扩展架构 RWKV。RWKV 架构能否在 Transformer 面临的核心问题上提供一种替代方案?新的架构是否给端侧模型的发展带来更多更大的机会?今天我们将和罗璇一起,从底层架构的设计出发,聊聊 RWKV 的可扩展性、 下一代大模型可能的走向,以及端侧 AI 的机会与未来。
本期人物
罗璇,元始智能联合创始人兼 COO
Yaxian,「科技早知道」主播
主要话题
[03:30] 训练效率低、Scaling law 见顶,成本高昂,Transformer 的瓶颈催生新架构的探索
[08:15] 高效并行、低复杂度,易端侧部署,RWKV 为 Transformer 提供了可替代方案
[13:24] 新型 RNN 与 Attention 混合模型就像油电混动车,但纯电才是大模型的未来
[17:07] 大厂押注新架构:基于 RWKV 架构的模型已达到 70B 激活参数
[23:47] 突破算力、内存和功耗限制,RWKV 天生适合端侧部署
[26:24] 未来 80% 的 AI 计算将在端侧,巨头尚未涉足的增量市场才是创业公司的机会
[32:35] 端侧机会有哪些?空间计算或是下一个风口
[38:20] RWKV 的 「ChatGPT」时刻将至:新架构对 AGI 的实现必不可少
延伸阅读
RNN(Recurrent Neural Network)
即循环神经网络,是一类专为处理序列数据设计的深度学习架构。它的核心机制是「循环」:当前时刻的输出不仅依赖于当前输入,还受到上一个时刻隐藏状态的影响,因此 RNN 具备记忆历史信息的能力。但经典的 RNN 也存在梯度消失/梯度爆炸、训练难以并行化和难以扩展至大模型规模等问题。RWKV 是一种结合 RNN 和 Transformer 优势的神经网络架构。
Mamba 架构
是一个专为高效处理长文本而设计的线性时间复杂度模型架构,它通过状态空间模型(State Space Model, SSM)实现类似 RNN 的信息传递方式,但比传统 RNN 更强、比 Transformer 更快。
LSTM(Long Short-Term Memory)
是一种改进版的 RNN 架构,全称为 「长短期记忆网络」。是一种具有“记忆控制能力”的循环神经网络,能够有效建模长期依赖关系,是 RNN 在深度学习时代的关键进化版本。
MoE 模型
MoE(Mixture of Experts,专家混合模型)是一种通过多个子网络(专家)组成的架构,每次仅激活其中一部分以提升计算效率与模型容量。它通过「按需使用」不同专家,实现高效推理与更强的任务适应能力。
XR(Extended Reality)
指扩展现实,是虚拟现实(VR)、增强现实(AR)和混合现实(MR)的统称,用于描述融合现实与数字内容的交互体验。
幕后制作
监制:Yaxian
后期:迪卡
运营:George
设计:饭团
商业合作
声动活泼商业化小队,点击链接直达声动商务会客厅,也可发送邮件至 [email protected] 联系我们。
🌍「Knock Knock 世界」特别节目上线!
上周更新了三期解读。聊了聊 AI 为什么会「出错」、飞机「退役」后会去向哪里,以及伊朗声称要封锁霍尔木兹海峡,这个海峡跟我们日常生活有哪些关联。现在就去节目主页一探究竟吧 ↓
小宇宙听友请点这里
Apple Podcast 听友请点这里
加入声动活泼
声动活泼目前开放开放人才发展伙伴岗、市场部门岗位(节目运营、社群运营、内容营销)和 BD 经理等职位,详情点击招聘入口
关于声动活泼
「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客:声动早咖啡、声东击西、吃喝玩乐了不起、反潮流俱乐部、泡腾 VC、商业WHY酱、跳进兔子洞 、不止金钱
欢迎在即刻、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们。
期待你给我们写邮件,邮箱地址是:[email protected]
[声小音]
欢迎扫码添加声小音,在节目之外和我们保持联系。
Special Guest: 罗璇.
今天我们请到的嘉宾,是元始智能的联合创始人和 COO 罗璇。他与另一位创始人彭博一起持续的探索基于循环神经网络的可扩展架构 RWKV。RWKV 架构能否在 Transformer 面临的核心问题上提供一种替代方案?新的架构是否给端侧模型的发展带来更多更大的机会?今天我们将和罗璇一起,从底层架构的设计出发,聊聊 RWKV 的可扩展性、 下一代大模型可能的走向,以及端侧 AI 的机会与未来。
本期人物
罗璇,元始智能联合创始人兼 COO
Yaxian,「科技早知道」主播
主要话题
[03:30] 训练效率低、Scaling law 见顶,成本高昂,Transformer 的瓶颈催生新架构的探索
[08:15] 高效并行、低复杂度,易端侧部署,RWKV 为 Transformer 提供了可替代方案
[13:24] 新型 RNN 与 Attention 混合模型就像油电混动车,但纯电才是大模型的未来
[17:07] 大厂押注新架构:基于 RWKV 架构的模型已达到 70B 激活参数
[23:47] 突破算力、内存和功耗限制,RWKV 天生适合端侧部署
[26:24] 未来 80% 的 AI 计算将在端侧,巨头尚未涉足的增量市场才是创业公司的机会
[32:35] 端侧机会有哪些?空间计算或是下一个风口
[38:20] RWKV 的 「ChatGPT」时刻将至:新架构对 AGI 的实现必不可少
延伸阅读
RNN(Recurrent Neural Network)
即循环神经网络,是一类专为处理序列数据设计的深度学习架构。它的核心机制是「循环」:当前时刻的输出不仅依赖于当前输入,还受到上一个时刻隐藏状态的影响,因此 RNN 具备记忆历史信息的能力。但经典的 RNN 也存在梯度消失/梯度爆炸、训练难以并行化和难以扩展至大模型规模等问题。RWKV 是一种结合 RNN 和 Transformer 优势的神经网络架构。
Mamba 架构
是一个专为高效处理长文本而设计的线性时间复杂度模型架构,它通过状态空间模型(State Space Model, SSM)实现类似 RNN 的信息传递方式,但比传统 RNN 更强、比 Transformer 更快。
LSTM(Long Short-Term Memory)
是一种改进版的 RNN 架构,全称为 「长短期记忆网络」。是一种具有“记忆控制能力”的循环神经网络,能够有效建模长期依赖关系,是 RNN 在深度学习时代的关键进化版本。
MoE 模型
MoE(Mixture of Experts,专家混合模型)是一种通过多个子网络(专家)组成的架构,每次仅激活其中一部分以提升计算效率与模型容量。它通过「按需使用」不同专家,实现高效推理与更强的任务适应能力。
XR(Extended Reality)
指扩展现实,是虚拟现实(VR)、增强现实(AR)和混合现实(MR)的统称,用于描述融合现实与数字内容的交互体验。
幕后制作
监制:Yaxian
后期:迪卡
运营:George
设计:饭团
商业合作
声动活泼商业化小队,点击链接直达声动商务会客厅,也可发送邮件至 [email protected] 联系我们。
🌍「Knock Knock 世界」特别节目上线!
上周更新了三期解读。聊了聊 AI 为什么会「出错」、飞机「退役」后会去向哪里,以及伊朗声称要封锁霍尔木兹海峡,这个海峡跟我们日常生活有哪些关联。现在就去节目主页一探究竟吧 ↓
小宇宙听友请点这里
Apple Podcast 听友请点这里
加入声动活泼
声动活泼目前开放开放人才发展伙伴岗、市场部门岗位(节目运营、社群运营、内容营销)和 BD 经理等职位,详情点击招聘入口
关于声动活泼
「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客:声动早咖啡、声东击西、吃喝玩乐了不起、反潮流俱乐部、泡腾 VC、商业WHY酱、跳进兔子洞 、不止金钱
欢迎在即刻、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们。
期待你给我们写邮件,邮箱地址是:[email protected]
[声小音]
欢迎扫码添加声小音,在节目之外和我们保持联系。
Special Guest: 罗璇.
评价...
空空如也
小宇宙热门评论...
Soong_2zha
4天前
广东
11
这哥们只说rwkv的好,不说缺点,这有点不合理,如果rwkv这么好,为啥国外同行都不all in?人家既有资金也有人才为啥不干呢?为啥呢?难道人家都是人傻钱多么?有点搞了,资本都不傻哈
Bill_LWM0
3天前
上海
4
不太诚实的分享者。。
jhwei
5天前
北京
4
不认同嘉宾针对端侧的一些想法。端侧的算力有限是没问题的,但是不管是transformer还是rwkv或者其他的模型架构,对于显存(或者以后能不依赖gpu那就是内存,但是我觉得不会)需求依然很高,因为依然需要存储去存“知识”。
目前不管是手机还是其他嵌入式设备的内存都没有那么高。如果去堆存储,那就是看谁的效果更好了。
端侧目前更多的意义在于快速响应和简单任务处理,并不是把云端完全搬到端侧
斯迪仔
4天前
广东
3
感觉嘉宾只说 rwkv 的好处,没提风险和卡点😂这节奏做空英伟达可以咯
HD425219z
5天前
上海
3
听不懂一点😂

无面仔
5天前
广东
2
21:09 不是有论文说过长的CoT对结果没有正收益吗?

dddd0401
5天前
北京
2
相对于普通从业者和兴趣者来说很有前瞻性的选题,不错不错 👍
Baca
3天前
美国
1
感觉就是RWKV的好处还是停留在理论上的,所谓的KV cache资源优势在各种大模型优化下差别不大 现在模型还在不断突破能力极限的情况下 这个优点可以忽略不计 短期内可能真的只有端测可能落地

瓦尓特
4天前
河北
1
07:41 要想用到端侧算力就意味着新的产品形态
尖头叉子
9小时前
美国
0
36:23 rwkv对物理世界有理解能力?这种话也敢说?那可以拿图灵奖了

辽北第一狠人儿
3天前
山东
0
1

迪丽热巴真的很热
4天前
广东
0
赶紧让苹果用上这个吧