这篇论文有两个亮点,第一个是SCA-Module,第二个是损失函数的求法。整个框架还是很简洁明了的,就不多说了。
1.Spatiality-Context-Apperance Module(SCA-M)
总共计算了五种特征,主宾各一种,谓语三种。图上画得挺清楚的,就不细说了。
谓语的三种特征计算的这种结构叫做Contrasive ROI Pooling,是用来感知空间位置关系的
主语和宾语的计算结构叫做Pyramid ROI Pooling,是把global的谓语特征传播到了local的物体特征
Zoom-Net使用了两个SCA-M,第一个作者说用来融合不同分支间的空间上下文,第二个用来多尺度交互
2.损失函数
首先,作者把VG数据集的物体类别和谓语类别分成了两个Intra-Hierarchical Tree(简称IH-Tree)
模型最终的输出是IH-Tree三个层级softmax cat在一起的结果,三个分支的loss是这个softmax的损失之和。这样的loss鼓励层级内的排斥和层级间的依赖。
总loss:作者设的都是1
本文发布于:2024-02-01 08:28:07,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170674728735241.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |