评分
暂无评分
0人评价
5星
0%
4星
0%
3星
0%
2星
0%
1星
0%
AI智能总结...
AI/summary > _
AI 正在思考中...
本集内容尚未生成 AI 总结
简介...
https://xiaoyuzhoufm.com
主播...
高洪浩ALaN
MasterPa
我的兄弟叫铁马
曼祺_MatchQ
评价...

空空如也

小宇宙热门评论...
雨荷HKSG
3个月前 中国香港
13
哇换了一个新logo更醒目
wanying
3个月前 上海
7
哇新封面好看
曼祺_MatchQ
3个月前 海南
7
上期,聊了稀疏注意力。这期,聊注意力机制的另一大改进方向:线性注意力。嘉宾是 MiniMax 高级研究总监,负责 MiniMax-01 模型网络架构的钟怡然。他开发了 1 月中旬开源的 MiniMax-01 中使用的线性注意力架构。 怡然在 2021 年线性注意力还是“美好的泡泡”时就开始关注它的实现。这我一个 AI 研究者关注与投入小众方向的过程。 (本期因录音 bug,音质不太好,有波动,不时出现“变声期”,请见谅。)
kamu
3个月前 上海
5
后半段谈技术路径的选择比前半段有意思。主持人一直拿ds-r1做对标,估计嘉宾的内心是崩溃的😂。个人感觉ds-r1从产品的角度也是一个好产品,比如输出整个推理链(让模型思考过程透明)、推理+联网搜索,还有就是输出速度非常快,现在都成了各个大模型的标配了。 之前采访Mini Max老板,他有个观点就是大模型没有数据飞轮驱动效应,所以用户数不影响大模型的能力,这个阶段要专注研究而不是应用,有一定道理;但是,人的智能其实就是靠与外界的不断互动而不断进步的,也就是说智能需要数据飞轮驱动,一个不能利用输入的数据进化自己的AI,估计也没有什么前途,并且要高效地利用输入数据,而不是每次都要经过高成本的训练才会有进步……所以AI的agi之路并没有那么容易……所以AI也需要丰富的应用生态来进化自己,做应用的也赶快做吧……
Rock修
3个月前 上海
4
好专业的对谈,感觉主持人太不容易了
黑猫枕头
3个月前 英国
4
哈哈为什么我反而是感觉到了研究的热情呢,我觉得这种真的勇气可嘉,新的方向但又要背负着成本压力。
_Lyn_
3个月前 浙江
4
scaling law实验只做到7B模型,最终放出来的是456B的模型,这之间的gap如此之大,应该是还有后续的模型帮助给scaling law描点了吧?想知道中间真正训过的不同大小的模型还有哪些,进而进一步支持了scaling law的实验。
霜雪明
3个月前 广东
4
1:25:00 101期嘉宾王小川的观点认为,语言资料是人类对现实世界的抽象凝练,高度浓缩、容易找到规律。本期嘉宾在最后认为,语料就积累了那么多,快用完了,后面(无论大家愿意不愿意)要转向现实世界。这两个观点也不完全矛盾。只是说,如果王小川的理解准确,那接下来模型进一步发展,会面临很大阻力。
一克拉拉
3个月前 上海
4
只有我觉得新logo不好么😂 原来休闲轻松的视觉vs高质量而又普惠的内容,反而有种反差萌的特点,让社畜听众感到放松。现在视觉很严肃 把文案换成焦点访谈也没违和感😬
HD482838j
3个月前 浙江
3
对比sparse attention 和 linear attention 的时候,嘉宾说 linear attn 无损是因为省掉了本来就冗余的操作,而 sparse attn 加了 mask 就有损,似乎没什么道理?为什么 sparse attn 省掉的就不是冗余的操作?
沙茶
3个月前 江苏
2
哈哈哈,道心之争
表现力
3个月前 新加坡
2
非常干货,本来是上班摸鱼在听,结果比上班还辛苦😆
hustww
3个月前 湖北
2
主持人很棒,就问题发问,没有泛泛而谈
名叫拿破仑的猪
3个月前 浙江
2
如果用 RNN 的目的是为了支持更大的窗口,那么用有限的隐空间去承载无限的信息注定达不到这个目标(Hybrid 的确是一个折中的方案)。我更加好奇 Gemini 2.0 是如何在性能这么优秀的情况下还能有 2M 窗口的。我猜测除了稀疏注意力之外应该还有独家的 TPU 软硬件协同优化。
霜雪明
3个月前 广东
2
1:17:24 Kimi最近也跟进了k1.5长思考功能,能看到思维链,各位的使用体验如何? 我觉得大部分时候和DS的深度思考相当,但在数理逻辑推理的时候会有一些区别。 Kimi没有开源,不清楚他们的技术路径,但印证了嘉宾的观点:没什么技术壁垒,其他公司能在三个月内追上来。
zhoulm
3个月前 甘肃
2
这这期很好👍
章鱼先生2024
3个月前 上海
1
同时请稀疏注意力和线性注意力的嘉宾,直接pk,会不会很有意思。😏
Edison_Htxr
3个月前 贵州
1
曼祺最近节目的更新频率高的我都有点消化不良了,刚听完稀疏注意力,这边又来了线性注意力😂
堕落奶酪
2个月前 上海
0
主播实在太贴心了,遇到专业术语就会追问
HD482838j
3个月前 浙江
0
另外关于longctx有一个疑问,目前longctx的瓶颈是在attn结构上,还是在训练数据上,如何构造超长ctx 的训练数据?我理解,现阶段 linear attn 的最大价值是不是降低计算复杂度以大幅降低成本?
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧