论文阅读：Zoom

阅读：评论：0

论文阅读：Zoom

这篇论文有两个亮点，第一个是SCA-Module，第二个是损失函数的求法。整个框架还是很简洁明了的，就不多说了。

1.Spatiality-Context-Apperance Module（SCA-M）
总共计算了五种特征，主宾各一种，谓语三种。图上画得挺清楚的，就不细说了。

谓语的三种特征计算的这种结构叫做Contrasive ROI Pooling，是用来感知空间位置关系的
主语和宾语的计算结构叫做Pyramid ROI Pooling，是把global的谓语特征传播到了local的物体特征

Zoom-Net使用了两个SCA-M，第一个作者说用来融合不同分支间的空间上下文，第二个用来多尺度交互

2.损失函数
首先，作者把VG数据集的物体类别和谓语类别分成了两个Intra-Hierarchical Tree（简称IH-Tree）

模型最终的输出是IH-Tree三个层级softmax cat在一起的结果，三个分支的loss是这个softmax的损失之和。这样的loss鼓励层级内的排斥和层级间的依赖。

总loss：作者设的都是1

本文发布于:2024-02-01 08:28:07，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170674728735241.html

上一篇：论文小结——GDRnet

下一篇：利用Python的TKinter实现全屏切换

标签：论文 Zoom

留言与评论（共有 0 条评论）