首页 > 编程札记 > 编程

Transformer Vision（二）

阅读：评论：0

Transformer Vision（二）

Transformer Vision（二）

1. 原理图

将一张图片拆分开来如下图所示，下图的 0,1,2，…，8,9 是用于记录图片的位置信息

2.Transformer Encoder结构图 (L× 指重复堆叠L次)

3.实现过程：

更为详细的Encoder Block图

上图中的 MLP Block 图解为

4.MLP Head层

注意：在Transformer Encoder 前有一个Dropout层，后有一个Layer Norm层

训练自己的网络时，可简单将MLP Head层看作一个全连接层

5. 总结ViT-B/16 网络结构

其中：Encoder Block

其中：MLP Block

本文发布于:2024-02-02 21:04:48，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170687908646437.html

版权声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

上一篇：B类网络子网划分

下一篇：计算机网络b类网络范围,一个B类网络中最多可以有多少个主机，如何计算？B类网络最多可以划分多少个子网？...

标签：Transformer Vision

留言与评论（共有 0 条评论）

推荐文章

排行榜

热门标签

我要关灯

我要开灯
返回顶部