论文阅读:Zoom

阅读: 评论:0

论文阅读:Zoom

论文阅读:Zoom


这篇论文有两个亮点,第一个是SCA-Module,第二个是损失函数的求法。整个框架还是很简洁明了的,就不多说了。

1.Spatiality-Context-Apperance Module(SCA-M)
总共计算了五种特征,主宾各一种,谓语三种。图上画得挺清楚的,就不细说了。

谓语的三种特征计算的这种结构叫做Contrasive ROI Pooling,是用来感知空间位置关系的
主语和宾语的计算结构叫做Pyramid ROI Pooling,是把global的谓语特征传播到了local的物体特征

Zoom-Net使用了两个SCA-M,第一个作者说用来融合不同分支间的空间上下文,第二个用来多尺度交互

2.损失函数
首先,作者把VG数据集的物体类别和谓语类别分成了两个Intra-Hierarchical Tree(简称IH-Tree)

模型最终的输出是IH-Tree三个层级softmax cat在一起的结果,三个分支的loss是这个softmax的损失之和。这样的loss鼓励层级内的排斥和层级间的依赖。

总loss:作者设的都是1

本文发布于:2024-02-01 08:28:07,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170674728735241.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:论文   Zoom
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23