作者: 小张Tt | 来源:3D视觉工坊
在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf。
添加微信:dddvisiona,备注:SLAM,拉你入群。文末附行业细分群。
本文提出了一个用于评估神经辐射场和神经渲染框架的真实基准思想,并设计了一个有效的流程用于快速扫描真实物体。通过不到500美元的硬件预算,在5分钟内能够收集到大约4000张被扫描物体的图像。构建了ScanNeRF数据集,其中包含多个训练、验证和测试集,用于评估不同条件下现代NeRF方法的性能。通过评估三个先进的NeRF变种,突出了它们的优点和缺点。该数据集可以在项目页面上获取,并提供在线基准测试,以促进更好的NeRF的发展。
本文提出了元宇宙的概念以及使用神经渲染技术将真实物体转移到虚拟世界中的方法。为了实现这一目标,作者构建了一个简单而有效的物体扫描站-ScanNeRF,并生成了一种高质量的真实数据集,其中包含适用于训练和评估最先进的神经辐射场方法的图像。这个数据集为神经渲染领域的研究提供了一个基准,并探讨了如何在从单个侧面采集的图像中完全渲染一个物体的挑战。此外,作者的工作展示了使用仅500美元的简单硬件就可以构建来自真实物体的数字孪生。这里也推荐「3D视觉工坊」新课程《深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战》。
作者的贡献有三个方面:
提出了一个用于收集图像的简单而有效的平台,用于训练神经渲染方法。
发布了一个包含真实物体图像的新型基准测试数据集。
评估了现代神经辐射场的性能,并突出了它们在不同情况下的优缺点。
本文回顾了神经辐射场(NeRF)的文献,并介绍了NeRF在新视点合成领域的最新进展。NeRF使用多层感知器(MLP)对隐式连续的体素表示进行编码,与离散表示相比具有较好的性能。然而,传统的NeRF存在训练时间长、需要为每个新场景进行独立训练以及渲染速度慢等限制。为了解决这些问题,文献中提出了一些加速NeRF训练和渲染的方法,包括预训练阶段、使用额外的深度信息、利用显式表示以及结合隐式表示等。最近的研究工作已经实现了更快速训练和渲染的NeRF变体,使得实时渲染成为可能。在此基础上,本文选择了DirectVoxGo、Plenoxels和Instant-NGP作为基准模型,建立了ScanNeRF基准测试,旨在推动神经辐射场和相关技术领域的进一步研究。与现有的基准测试相比,ScanNeRF提供了更可扩展的数据收集框架,并明确定义了测试集,避免了潜在的偏见结果。
神经辐射场(NeRF)通过将三维场景编码成隐式表示,在视觉领域中广泛应用。通过学习多层感知机(MLP)来建立隐式映射,其中包括中间的MLP(pos)用于推断密度和嵌入,浅层的MLP(rgb)用于预测颜色。为了更准确地表示底层函数的高频部分,使用基于傅里叶特征的位置编码。渲染图像时,根据光学模型和体绘制渲染,通过累计透射量和数值积分来计算像素颜色。训练NeRF模型时,通过最小化光度误差平方来优化模型参数。
在本节中,作者描述了ScanNeRF框架的硬件和软件组成部分。作者首先介绍我们的采集平台,然后描述了用于选择最终图像的后处理步骤,以及用于提取物体的掩膜策略。最后,作者强调了生成数据集的整体组织方式。
扫描站使用Lego Mindstorm套件构建,配备了OpenCV Oak-D Lite相机。通过旋转底座和机械臂的两个自由度,可以轻松地收集扫描物体周围的图像。相机姿态计算基于ChArUco标记和OpenCV库的功能实现。扫描过程中,相机以30fps的频率录制1440×1080分辨率的图像。整个扫描站通过Lego Mindstorms桌面应用程序的API进行Python编程,并通过蓝牙连接进行控制。扫描站的硬件预算低于500美元。
数据集过滤的过程通过计算相机姿态的方位角来检测基座的旋转,并丢弃方位角与前一个角度之差小于1.15°的图像。这样可以有效地去除在臂下降期间收集的图像,从而保留只在臂不移动且基座旋转时获取的图像。
为了剔除不一致的背景并获得只包含扫描物体的图像,作者采用背景遮罩的方法。通过使用Instant-NGP神经渲染框架,作者训练并渲染了与原始图像相同姿态的新图像。在渲染过程中,作者使用渲染体积来裁剪不一致的背景,并根据像素的alpha值生成遮罩。这些遮罩被应用于原始图像,移除了背景和扫描站基座,使最终的图像中只保留了物体。
在数据集组织和划分阶段,作者将获取的图像序列划分为Train、Val和Test三个宏划分,分别包含不同数量的图像。作者通过Farthest Point Sampling算法在物体上方半球均匀采样图像,并将Train宏划分的图像进一步细分为三个训练子划分,以探究不同图像数量对NeRF算法性能的影响。同时,作者还构建了八个附加的子划分,每个子划分包含在特定区域更密集采集的图像,并从整个半球分布的位置上随机采样一小部分图像。这些子划分的设计旨在研究在训练集具有不均匀视角空间分布时不同NeRF算法的表现,并以此促进未来的研究。
所述流程允许快速扫描大量物体。一个完整的获取周期包括收集约9000张图像,并经过过滤步骤后减少至约4000张。当前的ScanNeRF数据集包括35个真实物体,用于评估现代NeRF框架的性能。未来计划扩大数据集以包含数百个甚至数千个物体,并通过基准网站共享Train/Val拆分。
在本节中,作者对作者的创新ScanNeRF数据集进行了实验。具体而言,作者在作者设计的拆分数据上运行了三种现代高效的NeRF框架,以研究它们在不同密度和训练图像数量的情况下的性能表现,以及它们在仅从扫描对象周围的特定区域密集获取图像时的行为。
在本节中,我们对我们的创新ScanNeRF数据集进行了实验。我们评估了三种现代高效的NeRF框架:DVGO、Plenoxels和Instant-NGP。每种方法都具有不同的训练和渲染速度。我们使用每个框架的官方代码进行实验,并保持默认的超参数设置。在评估中,我们训练了420个实例,并使用峰值信噪比(PSNR)作为评估指标来衡量渲染图像的质量。
在均匀分布采集的实验中,作者训练和评估了三种方法:DVGO、Plenoxels和Instant-NGP。当使用1000张图像进行训练时,所有三种NeRF变体的性能都相当出色,达到了超过30的PSNR。随着训练图像密度逐渐减少到500、250和100,三个框架的性能出现了不同的变化。Instant-NGP几乎不受训练图像减少的影响,DVGO的PSNR有轻微下降,而Plenoxels在仅用100张图像进行训练时出现了最大的渲染质量下降。根据实验结果,Instant-NGP在训练和渲染速度、渲染质量以及对训练图像数量减少的鲁棒性方面表现最佳。这里也推荐「3D视觉工坊」新课程《深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战》。
本实验主要针对密集局部采集进行了实验。实验结果显示,三种NeRF算法在训练和测试相同分布位置的子集时表现良好,但在来自不同密集采集子集的测试中,它们的表现有所不同。其中,Plenoxels在这种设置下表现不稳定,而DVGO和Instant-NGP相对更具鲁棒性。作者推测,这一差异可能是因为前两种方法中的MLP组件能够从均匀分布的样本中学到强烈的偏差,从而帮助它们推广到几乎未见过的半球区域。
本文介绍了ScanNeRF作为一个可伸缩的神经辐射场基准和神经渲染框架的评估平台。通过ScanNeRF的特殊划分,作者在不同设置下研究了现代NeRF框架的潜力,并给研究社区提出了一些新的挑战。我们相信ScanNeRF将促进神经辐射场框架的研究。
—END—目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向,细分群包括:[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些,还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。
针对3D视觉领域的视频课程(三维重建、三维点云、结构光、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业、项目对接为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:「3D视觉从入门到精通」
学习3D视觉核心技术,扫描查看,3天内无条件退款
如果大家对3D视觉某一个细分方向想系统学习[从理论、代码到实战],推荐3D视觉精品课程学习网址:www.3dcver
科研论文写作:
[1]国内首个面向三维视觉的科研方法与学术论文写作教程
基础课程:
[1]面向三维视觉算法的C++重要模块精讲:从零基础入门到进阶
[2]面向三维视觉的Linux嵌入式系统教程[理论+代码+实战]
[3]如何学习相机模型与标定?(代码+实战)
[4]ROS2从入门到精通:理论与实战
[5]彻底理解dToF雷达系统设计[理论+代码+实战]
工业3D视觉方向课程:
[1](第二期)从零搭建一套结构光3D重建系统[理论+源码+实践]
[2]保姆级线结构光(单目&双目)三维重建系统教程
[3]机械臂抓取从入门到实战课程(理论+源码)
[4]三维点云处理:算法与实战汇总
[5]彻底搞懂基于Open3D的点云处理教程!
[6]3D视觉缺陷检测教程:理论与实战!
SLAM方向课程:
[1]深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战
[1]彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战
[2](第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化
[3]彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析
[4]彻底剖析室内、室外激光SLAM关键算法和实战(cartographer+LOAM+LIO-SAM)
[5](第二期)ORB-SLAM3理论讲解与代码精析
视觉三维重建
[1]彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进)
自动驾驶方向课程:
[1] 深度剖析面向自动驾驶领域的车载传感器空间同步(标定)
[2] 国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程
[3]单目深度估计方法:算法梳理与代码实现
[4]面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
[5]如何将深度学习模型部署到实际工程中?(分类+检测+分割)
1、3D视觉文章投稿作者招募
2、3D视觉课程(自动驾驶、SLAM和工业3D视觉)主讲老师招募
3、顶会论文分享与3D视觉传感器行业直播邀请
—END—
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向,细分群包括:[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些,还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。
针对3D视觉领域的视频课程(三维重建、三维点云、结构光、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业、项目对接为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:「3D视觉从入门到精通」
学习3D视觉核心技术,扫描查看,3天内无条件退款
如果大家对3D视觉某一个细分方向想系统学习[从理论、代码到实战],推荐3D视觉精品课程学习网址:www.3dcver
科研论文写作:
[1]国内首个面向三维视觉的科研方法与学术论文写作教程
基础课程:
[1]面向三维视觉算法的C++重要模块精讲:从零基础入门到进阶
[2]面向三维视觉的Linux嵌入式系统教程[理论+代码+实战]
[3]如何学习相机模型与标定?(代码+实战)
[4]ROS2从入门到精通:理论与实战
[5]彻底理解dToF雷达系统设计[理论+代码+实战]
工业3D视觉方向课程:
[1](第二期)从零搭建一套结构光3D重建系统[理论+源码+实践]
[2]保姆级线结构光(单目&双目)三维重建系统教程
[3]机械臂抓取从入门到实战课程(理论+源码)
[4]三维点云处理:算法与实战汇总
[5]彻底搞懂基于Open3D的点云处理教程!
[6]3D视觉缺陷检测教程:理论与实战!
SLAM方向课程:
[1]深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战
[1]彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战
[2](第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化
[3]彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析
[4]彻底剖析室内、室外激光SLAM关键算法和实战(cartographer+LOAM+LIO-SAM)
[5](第二期)ORB-SLAM3理论讲解与代码精析
视觉三维重建
[1]彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进)
自动驾驶方向课程:
[1] 深度剖析面向自动驾驶领域的车载传感器空间同步(标定)
[2] 国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程
[3]单目深度估计方法:算法梳理与代码实现
[4]面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
[5]如何将深度学习模型部署到实际工程中?(分类+检测+分割)
1、3D视觉文章投稿作者招募
2、3D视觉课程(自动驾驶、SLAM和工业3D视觉)主讲老师招募
3、顶会论文分享与3D视觉传感器行业直播邀请
本文发布于:2024-02-01 04:01:43,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170673130133707.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |