FRNet:Feature Reconstruction Network for RGB

阅读: 评论:0

FRNet:Feature Reconstruction Network for RGB

FRNet:Feature Reconstruction Network for RGB

FRNet做了大量的消融实验,这里仔细来分析一下。
1:ResNet backbone:
作者消融实验使用了ResNet34作为backbone来提取特征,将最后一层的输出简单相加起来,然后通过不断的上采样获得最终的输出。并且只在最后一层进行监督。最终在NYU取得了45.9%的成绩。我自己也跑过,说实话有些偏高。


可视化:

作者提到FRNet为什么可以获得比较好的结果其原因是因为考虑到了跨模态的信息,多层信息,上下文信息,多尺度监督。
接着作者对FCE的四个变量进行验证:
WA表示移除掉所有的重建操作,即CEM,而多层特征表示直接又相加替换掉。效果可以达到49.6。相比基础模型多了个信息的回流和融合上采样。等我下去试试这种top-down的结构的表现再回来。


可视化:

我们通过图片可以看到,如果不对RGB和Depth进行重建和融合,图片的边缘会比较模糊,且有大面积的涂抹感。
OH操作表示重建操作只在第四层有,且反向不再执行。

结果:相比于WA提升很明显有3.1%的提升。

OR表示我们只重建RGB分支,OH表示我们只重建Depth分支。我们只画rgb,depth同理。效果有所降低,说明只对RGB或Depth分值进行重建不如同时进行重建。

接着作者验证了添加第一层对模型的结构的影响:

结果:添加了不如不加的好,因为第一层噪声比较多。同时参数量肯定增加了不少
作者验证了CAM的三个变量:

首先W+表示将所有的CAMs替换为逐像素相加。
结果:51.3%

WD表示移除掉权重相乘的Wd操作。

结果:提升到了52.4%相比于逐像素相加,效果提升了1%。

WOA表示用逐像素相加和卷积替代ADr和ADd:

结果:和WD结果差不了多少。

WOC:表示移除多尺度特征提取。

结果:相比于之前的效果降低了一些,可以知道多尺度特征提取是有用的,即ASPP比一般的卷积效果好一点,这个我也经过实验的。

WSOF:

结果:稍微有点降低。

接着是
CAM
模块的效果可视化:

接着是
CEM
的三个变量:

首先是RC,删除掉所有的CEMs,输出值用原始的RGB替换掉,这里的原始RGB到底是输入的RGB还是经过每层卷积后的RGB,这里暂且为经过每层卷积后的RGB。

结果:相比于最好的结果降低了1点多。

结果可视化:

C+:用SUM替代所有的CEMs。

结果:相比于不加高层次的语义信息还是有些许提升。

CA:验证逐像素相减的有效性,将减法替换为加法。

结果:有所下降,相比于逐像素相加,相减可以有效地突出特征的差异。

CA:将CEM和CAM替换为sum。

结果下降了4%,证明CAM和CEM的有效性。

总结:
1:类似于TOP-Down结构效果还是挺好的。即高层语义信息向低层的细节特征flow。
2:整个模型总体看来就是一个点即RGB和Depth的融合问题。融合的效果好最后的结果也是很好的,比如SA-Gate,encoder只关注RGB和Depth的融合问题,decoder比较简单。
3:RGB和Depth融合,一般三四个分支就足够的,不用太多,说的就是第一层,即经过池化后融合大可不必和decoder融合,增加计算量,并且第一层特征噪声比较多。
4:跨模态,跨层融合比单一的融合效果更好。同时注意力也是必不可少的。
5:类似于ASPP的结构获得更大的感受野,加在模型中会有一点提升。

本文发布于:2024-02-02 21:13:46,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170687962646475.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:Feature   FRNet   Reconstruction   RGB   Network
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23