Transformer Vision(二)

阅读: 评论:0

Transformer Vision(二)

Transformer Vision(二)

1. 原理图

​ 将一张图片拆分开来如下图所示,下图的 0,1,2,…,8,9 是用于记录图片的位置信息


2.Transformer Encoder结构图 (L× 指重复堆叠L次)


3.实现过程:

更为详细的Encoder Block图

​ 上图中的 MLP Block 图解为

4.MLP Head层

注意:在Transformer Encoder 前有一个Dropout层,后有一个Layer Norm层

训练自己的网络时,可简单将MLP Head层看作一个全连接层

5. 总结ViT-B/16 网络结构

其中:Encoder Block

其中:MLP Block

本文发布于:2024-02-02 21:04:48,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170687908646437.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:Transformer   Vision
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23