多头注意力机制的通俗式理解

阅读：评论：0

多头注意力机制的通俗式理解

各位都很忙，废话不多说直接上图。

首先 Q K V 均来自同一个数据，
假设我们有同一个输入数据 a,
则
Q = Linear（a）
K = Linear（a）
V = Linear（a）
其中，三个 Linear（·）并非同一个，拥有不同的参数。
Q 代表 query – 查询， K 代表 key – 键， V 代表 value – 值
我们目的是从同一个数据 a 中生成含义为：查询某一个键对应的权重，
然后使用这个权重乘以值得到经过权重分配后的数据 a 的表示。
即 Q 乘以 K 的转置得到的是一个权重，这就是为什么上图中为什么还要经过 softmax，然后权重乘以 V 得到经过权重注意力的数据。

本文发布于:2024-02-08 19:47:00，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170739292468454.html

上一篇：网站收录查询结果不一致问题

下一篇：93.transformer、多头注意力以及代码实现

标签：多头通俗注意力机制

留言与评论（共有 0 条评论）