移动网站建设制作,网站内容建设要求 age06,毕设做网站 方面的论文,中网站建设导读#xff1a;商汤研究院和浙江大学CADCG国家重点实验室合作研发了一个手机端实时单目三维重建系统Mobile3DRecon。与现有的基于RGBD的在线三维重建或离线生成表面网格的系统不同#xff0c;该系统结合前端位姿跟踪结果#xff0c;允许用户使用单目摄像头在线重建场景…导读商汤研究院和浙江大学CADCG国家重点实验室合作研发了一个手机端实时单目三维重建系统Mobile3DRecon。与现有的基于RGBD的在线三维重建或离线生成表面网格的系统不同该系统结合前端位姿跟踪结果允许用户使用单目摄像头在线重建场景表面网格。在深度估计方面提出结合多视图半全局匹配算法和深度神经网络优化后处理过程鲁棒地估计场景深度。在表面网格生成过程本文提出的在线网格生成算法可以实时增量地融合关键帧深度到稠密网格中从而重建场景表面。通过定性和定量的实验验证所研制的单目三维重建系统能够正确处理虚拟物体与真实场景之间的遮挡和碰撞在手机端实现逼真的AR效果和交互。论文名称: Mobile3DRecon: Real-time Monocular 3D Reconstruction on a Mobile Phone论文地址Mobile3DRecon: Real-time Monocular 3D Reconstruction on a Mobile Phoneieeexplore.ieee.orgOral slideshttps://www.youtube.com/watch?vW95Vs4REUGMwww.youtube.com问题和挑战遮挡和碰撞检测一直是AR行业面对的一大难题其技术难点在于需要实时获取场景的三维表面信息从而使虚拟物体和真实环境能融为一体。当前已有的实时场景重建系统通常需要RGB-D或Lidar摄像头的支持如KinectFusion, InfiniTAM, ElasticFusion, BundleFusion等然而受硬件的限制目前市面上大部分的手机无法使用该功能另一类重建系统虽然可以根据单目RGB摄像头计算深度从而重建场景表面如MonoFusion, MobileFusion, CHISEL等但是需要较大的计算时间和内存开销大多仅能在PC或高端的移动平台上实时运行。针对上述问题本文提出了一个手机端实时单目三维重建系统Mobile3Drecon该工作的主要贡献在于提出一种基于多视图关键帧的深度估计方法能够在手机端高效获取较高精度的场景深度同时能够一定程度上容忍SLAM位姿偏差和弱纹理场景的影响提出一种快速有效的增量式网格生成方法该方法可以融合关键帧深度从而实时增量地重建场景表面网格同时支持场景动态物体的移除在中端的手机平台上实时运行搭建了一套完整的基于单目RGB的实时三维重建系统该系统在中端手机平台上可以达到125ms每关键帧获取的表面网格精度可以达到厘米级基于该系统可以在手机端实现逼真的AR效果和交互如图1所示。图1Mobile3DRecon系统在小米8手机上实时重建室内办公室场景并实现虚实遮挡和碰撞效果方法介绍本系统框架如图2所示。移动设备获取的RGB图像和IMU信息经过前端视觉惯性SLAM系统后可以实时得到关键帧的6自由度位姿该位姿经过后端全局优化后进入深度估计模块对于新增的每个关键帧首先基于多视图半全局匹配方法计算关键帧初始深度图然后采用置信度和深度神经网络优化深度图噪声优化后的深度图输入增量式网格生成模块后实时构建场景表面稠密网格。通过实时6自由度位姿估计和场景表面网格构建Mobile3DRecon系统支持用户在手机端实现真实的AR遮挡和碰撞效果。下面分别介绍系统的单目深度估计和增量式网格构建两个主要功能模块。图2系统框架图1. 单目深度估计动机传统基于多视图立体匹配的深度估计算法通常需要较强的GPU算力来满足实时计算的要求而轻量的算法又难以获得精确完整的深度图结果。尽管一些基于深度神经网络的深度估计算法在公开数据集上表现出了较好的效果然而在实际应用过程中受场景弱纹理和SLAM位姿偏差的影响较大手机平台算力的影响也使其难以在移动端部署。鉴于此本文期望结合轻量化的深度神经网络和快速的多视图半全局匹配算法实现场景深度计算考虑到手机平台算力、SLAM位姿偏差和弱纹理场景的影响本文希望多视图半全局匹配方法在保证深度估计泛化能力的同时能够融合多帧信息提升对位姿偏差和弱纹理区域的容忍度通过结合深度神经网络能够有效改善位姿偏差和弱纹理产生的深度噪声从而得到精确、完整的深度图结果。方法 本文提出的单目深度估计算法主要包含三个部分多视图立体匹配算法用于计算初始深度图置信度去噪算法用于去除初始深度图噪声基于深度神经网络的深度图优化算法用于改善深度图质量具体方式如下① 步骤多视图深度估计② 步骤置信度噪声剔除图3单目深度估计结果③ 步骤基于深度神经网络的深度图优化去除深度图噪声后本文使用一个轻量的深度神经网络优化深度图网络结构如图4所示包含了多任务网络和深度优化网络两个部分。图4深度图优化神经网络结构网络第二个阶段的输入为原始深度图和一阶段的深度图噪声预测结果使用U-Net残差深度优化网络优化原始输入的深度得到更高质量的深度输出。本文使用Demon数据集[2]训练上述网络然后使用手机采集的带TOF深度的3700组序列影像微调该网络。图5所示为带有一定位姿偏差的图像第二列为置信度剔除噪声后的深度图最后一列为经过深度优化网络后的深度图结果可以看出深度图仅存在少量的空间噪声。图5基于深度神经网络的深度图优化2. 增量式网格生成动机在线网格重建的难点在于如何在保证较好重建效果和重建规模的前提下能够实时在线地重建场景三维表面信息。传统基于TSDF融合的方法虽然能够在线融合深度图TSDF的更新通常需要在GPU平台上才能达到实时受平台算力的影响该过程很难在一些中低端的手机上实时应用。此外现有的表面网格生成的算法如Marching Cubes[4]是离线的难以实现在线增量式表面网格生成和更新。鉴于此本文希望能够实现一种适合手机端AR应用的实时增量式在线网格生成算法通过构建一种快速的基于空间索引的voxel hash机制并对传统的Marching Cubes算法进行改进使其能够在线增量地扩展场景网格表面从而重建场景三维信息。同时考虑到空间中的动态物体可能会对AR遮挡和碰撞效果产生影响因此本文希望增量式网格生成算法能够快速有效地剔除空间动态物体。方法本文的增量式网格生成方法主要包含三个部分可扩展的哈希函数用于建立空间体素的索引机制体素融合与动态物体移除用于将计算的深度图融合到体素中同时移除不在当前场景的动态物体增量式网格更新用于快速提取体素块的网格面片从而重建场景三维信息具体方式如下① 可扩展的哈希函数图6可扩展哈希索引示意图② 体素的融合与动态物体移除对于输入的每个关键帧深度图通过将深度值投影到三维的体素块中从而判断是否需要分配新的体素块如果需要则将体素块的TSDF和权值信息插入到索引表中否则按照下式7更新当前体素块体素的TSDF值和权重。为了处理动态物体产生的网格本文将可见的体素投影到当前帧深度上进行可视性检查如果发现与当前深度存在差异则更改体素的TSDF值。通过这种方式可以使移出场景的动态物体产生的网格被逐渐消除。如图7展示了增量式网格构建过程中动态物体移除的过程。图7动态物体移除示意图③ 增量式网格更新图8三个关键帧的增量式网格更新示意图实验结果本文使用OPPO R17 Pro手机采集带有真实场景深度的5组数据用于从定性和定量两个方面对比Mobile3DRecon与一些SOTA方法的效果, 其中ground truth为OPPO R17 Pro获取的与单目相机对齐的TOF深度。图9和图10所示为室外楼梯场景分别使用REMODE、DPSNet、MVDepthNet以及本文方法生成深度图和mesh网格可以看出本文方法生成的深度图细节更加明显在此基础上生成的网格质量优于其它几种方法。图9本文的单目深度估计与其他方法的结果比较图10本文方法最终融合的表面网格与其他方法的结果比较为了定量评价本文方法和REMODE、DPSNet、MVDepthNet生成的深度图和网格的精度本文对比了5个场景下几种方法的实验结果如表1所示。分别统计了几种方法的深度和网格与真值深度ToF和真值网格在公共有效区域的RMSE和MAE精度可以看出Mobile3DRecon方法不论是在深度图还是网格质量上都要优于其它的一些SOTA方法深度图和网格精度可以达到厘米级。其余4个场景重建的网格结果如图11所示。表1Mobile3DRecon系统重建五个由OPPO R17 Pro采集的实验场景的精度评估每个场景给出了本文的方法和其他方法的深度和网格的RMSE和MAE误差以ToF深度作为真值。图11四个由OPPO R17 Pro采集的实验场景用本文方法生成的表面网格结果本文在OPPO R17 Pro和小米8两个中端手机平台上测试了Mobile3DRecon各个过程的耗时如下表所示。Mobile3DRecon在小米8高通骁龙845平台上基本可以达到OPPO R17 Pro高通骁龙710两倍的运行速度然而即使是在性能较弱的OPPO R17 Pro手机上本系统基于关键帧深度估计和增量式网格构建的过程仍然可以满足每秒5关键帧的运行帧率从而达到实时的效果。表2Mobile3DRecon系统每个关键帧各步骤的详细耗时情况分别在OPPO R17 Pro和小米8两个手机平台上统计。图12展示了Mobile3DRecon系统集成到移动端Unity的运行效果可以看出在OPPO R17 Pro和小米8手机上该系统能够通过精确重建场景表面网格使得虚拟物体的放置不局限于平面结构同时室内楼梯和打印机场景的示例也展示了虚拟球与真实场景产生的正确遮挡和碰撞交互效果。图12Mobile3DRecon在手机平台上的AR应用结语本文提出了一个实时的单目三维重建系统该系统允许用户在一些中端的手机平台上使用单目摄像头提供在线网格生成功能。与现有的基于点云或TSDF的在线重建方法不同Mobile3DRecon系统可以根据单目摄像头图像鲁棒地估计场景深度同时将估计的关键帧深度实时增量地融合到稠密网格表面。本文在两个中端手机平台上验证了Mobile3DRecon系统的重建结果通过定量和定性的实验验证了所提出的实时单目三维重建系统的有效性。Mobile3DRecon系统能够正确处理虚拟物体与真实场景之间的遮挡和碰撞从而达到逼真的AR效果。References [1] A. Drory, C, et al. Semi-global matching: A principled derivation in terms of message passing. In German Conference on Pattern Recognition, pp. 43–53. Springer, 2014.[2] Ummenhofer B, Zhou H, Uhrig J, et al. Demon: Depth and Motion Network for Learning Monocular Stereo. In CVPR, 2017.[3] Matthias Nießner, Michael Zollhöfer, Izadi S , et al. Real-time 3D Reconstruction at Scale using Voxel Hashing. ACM Transactions on Graphics (TOG), 2013.[4] W. E. Lorensen and H. E. Cline. Marching cubes: A high resolution 3D surface construction algorithm. ACM SIGGRAPH Computer Graphics, 21(4):163–169, 1987.[5] P. Ondruska, P. Kohli, and S. Izadi. MobileFusion: Real-time volumetric surface reconstruction and dense tracking on mobile phones. IEEE Transactions on Visualization and Computer Graphics, 21(11):1–1.[6] Y. Yao, Z. Luo, S. Li, T. Fang, and L. Quan. MVSNet: Depth inference for unstructured multi-view stereo. In ECCV, pp. 767–783, 2018.[7] S. Im, H.-G. Jeon, S. Lin, and I. S. Kweon. Dpsnet: End-to-end deep plane sweep stereo. In International Conference on Learning Representations, 2019.论文作者杨幸彬、周立阳、姜翰青、唐中樑、王元博、鲍虎军、章国锋