时长:
26分钟
播放:
754
发布:
4个月前
主播...
简介...
今天特别想拆解一篇改变AI历史的论文——《Attention is All You Need》,很多人都听过这篇论文,在17年发表后被视为改变了人工智能的发展路径,而这与我们有什么关联了,我重新去理解了这篇论文里讲到的算法更新如何能够被我们应用到生活中去。
他们提出了Transformer 代表了一种基于自注意力机制的深度学习模型架构。它
那Transformer 的推理方式是怎么样的呢?
* 输入处理:先将文本等输入分成 token,再转换为嵌入向量,同时通过位置编码让模型感知 token 的位置信息。
* 自注意力计算:每个 token 会生成查询向量(Q)、键向量(K)和值向量(V)。通过计算查询向量与其他所有键向量的点积,得到注意力分数,再除以键向量维度的平方根并经过 softmax 函数归一化,得到注意力权重。最后根据权重对值向量加权求和,得到自注意力机制的输出。
自注意力机制的基础是为每个输入元素(如文本中的词)生成三个向量:
* 查询向量(Query, Q):代表当前元素 “想找什么”;
* 键向量(Key, K):代表其他元素 “是什么”;
* 值向量(Value, V):代表其他元素 “包含的信息”。
1. 核心计算:注意力权重与加权求和
自注意力机制的学习模型就像一个 “动态关联探测器”:通过 Q、K、V 的交互计算元素间的关联强度,用权重整合关键信息,再通过数据训练优化这些关联的判断能力,最终让模型能理解序列中复杂的依赖关系。
我们的人生又何尝不是如此呢?
1、破除「顺序依赖」:像Transformer一样并行处理任务
2、「多头注意力」的本质:给不同目标分配专属带宽
3、抵御干扰的「掩码机制」:主动屏蔽未来焦虑
在《房间里的大象》这本书里提到几句话:
学着去忽视——“我们注意的”和“我们忽视的”之间的界限划分并非自来如此,也不纯粹是个人化的。
事实上,我们投射注意力的方式,通常是高度非个人化的,符合社会传统习俗的关注方式。所以当我们关注或忽视某物时,我们通常是按照我们所属社群的成员共有的方式来操作的。
看理想圆桌的播客中看到一句标题,写的非常好——
金钱和注意力就是我们的投票权。而我们的权力又关联我们在这个世界获得多少的认识和信息。
珍惜自己的注意力,它是你的投票权,它是你的权力,它是你的人生算法。
延伸阅读:
论文《Attention is All You Need》
《房间里的大象》
扫码加主播微信,很高心认识新朋友,加入五点起床听友群
他们提出了Transformer 代表了一种基于自注意力机制的深度学习模型架构。它
那Transformer 的推理方式是怎么样的呢?
* 输入处理:先将文本等输入分成 token,再转换为嵌入向量,同时通过位置编码让模型感知 token 的位置信息。
* 自注意力计算:每个 token 会生成查询向量(Q)、键向量(K)和值向量(V)。通过计算查询向量与其他所有键向量的点积,得到注意力分数,再除以键向量维度的平方根并经过 softmax 函数归一化,得到注意力权重。最后根据权重对值向量加权求和,得到自注意力机制的输出。
自注意力机制的基础是为每个输入元素(如文本中的词)生成三个向量:
* 查询向量(Query, Q):代表当前元素 “想找什么”;
* 键向量(Key, K):代表其他元素 “是什么”;
* 值向量(Value, V):代表其他元素 “包含的信息”。
1. 核心计算:注意力权重与加权求和
自注意力机制的学习模型就像一个 “动态关联探测器”:通过 Q、K、V 的交互计算元素间的关联强度,用权重整合关键信息,再通过数据训练优化这些关联的判断能力,最终让模型能理解序列中复杂的依赖关系。
我们的人生又何尝不是如此呢?
1、破除「顺序依赖」:像Transformer一样并行处理任务
2、「多头注意力」的本质:给不同目标分配专属带宽
3、抵御干扰的「掩码机制」:主动屏蔽未来焦虑
在《房间里的大象》这本书里提到几句话:
学着去忽视——“我们注意的”和“我们忽视的”之间的界限划分并非自来如此,也不纯粹是个人化的。
事实上,我们投射注意力的方式,通常是高度非个人化的,符合社会传统习俗的关注方式。所以当我们关注或忽视某物时,我们通常是按照我们所属社群的成员共有的方式来操作的。
看理想圆桌的播客中看到一句标题,写的非常好——
金钱和注意力就是我们的投票权。而我们的权力又关联我们在这个世界获得多少的认识和信息。
珍惜自己的注意力,它是你的投票权,它是你的权力,它是你的人生算法。
延伸阅读:
论文《Attention is All You Need》
《房间里的大象》
扫码加主播微信,很高心认识新朋友,加入五点起床听友群
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论