简介...
https://xiaoyuzhoufm.com
本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈,由「海外独角兽」和「张小珺商业访谈录」的共同制作,
张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。
一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型领域的进步极快,但多模态生成和理解的难度被低估了:
* 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习;
* 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确,数据质量有限,生成模块往往无法反向影响理解模块等;
* 模型 scale 到万亿参数后,在文本生成和知识问答能力增强的同时,推理能力,尤其是数学,却呈现出能力随规模增长反而下降的现象;
* 大模型出现推理能力下降的原因在于大模型在思考时,倾向跳步,next token prediction 框架天然更关注压缩率而非推理精度,这在任务目标与压缩率存在差异时会出问题;
* Rule-based RL 可通过直接优化任务目标,迫使模型选择可靠推理路径,在推理任务中抑制跳步、强化稳定的思维路径;
* o1 范式的技术本质在于激发出 Meta CoT 思维链:允许模型在关键节点反悔、重试、选择不同分支,使推理过程从单线变为图状结构。
……
访谈文字版全文链接。
评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧