KeyPose:从立体声估计透明对象的3D姿势

KeyPose:从立体声估计透明对象的3D姿势
2022年11月16日 17:30 若雪科技

估计3D对象的位置和方向是涉及对象级感知的计算机视觉应用程序的核心问题之一,例如增强现实和机器人操纵。在这些应用程序中,重要的是要知道对象在世界上的3D位置,以便直接影响它们或将模拟对象正确地放置在它们周围。尽管使用机器学习(ML)技术对此主题进行了大量研究,尤其是Deep Nets,但大多数都依赖于深度感应设备(如Kinect)的使用,可以直接测量到物体的距离。对于有光泽或透明的对象,直接深度感应效果不佳。例如,下图包括多个对象(的左侧),其中两个是透明的星星。深度设备无法找到恒星的良好深度值,因此很难对实际3D点进行重建(右图)。

左:透明物体的RGB图像。 右图:四屏图像显示左侧场景的重构深度,上排包含深度图像,下排呈现3D点云。左侧面板是使用深度相机重建的,右侧面板是从ClearGrasp模型输出的。请注意,尽管ClearGrasp可以绘制星星的深度,但会误认为最右边的星星的实际深度。

解决此问题的一种方法,例如ClearGrasp提出的方法,是使用深度神经网络来修补透明对象的损坏深度图。鉴于透明物体的单个RGB-d的图像,ClearGrasp使用深卷积网络来推断表面法线,透明表面的掩模,和闭塞边界,它用来改进对所有透明的表面的初始深度估计场景中的(最右边 在上图)。这种方法非常有前途,并且可以通过依赖深度的姿势估计方法来处理具有透明对象的场景。但是修复可能会比较棘手,尤其是在使用合成图像进行全面培训时,仍然可能导致深度错误。

与斯坦福大学人工智能实验室合作在CVPR 2020上发表的 " KeyPose:多视图3D标签和透明对象的关键点估计"中,Google描述了一种ML系统,该系统通过直接预测3D关键点来估计透明对象的深度。为了训练系统,Google以半自动化的方式收集了透明物体图像的大型真实世界数据集,并使用手动选择的3D关键点有效地标记了它们的姿势。然后,Google训练深度模型(称为KeyPose)以从单眼或立体图像端到端估计3D关键点,而无需明确计算深度。对于单个对象和对象类别,模型都适用于训练期间可见和不可见的对象。虽然KeyPose可以处理单眼图像,但立体图像可提供的额外信息使其可以将结果提高到单眼图像输入的两倍,根据对象的不同,典型误差在5毫米至10毫米之间。即使为竞争方法提供了地面真实深度,它也大大改善了这些对象的最新姿态估计。Google正在发布标记有标签的透明对象的数据集,供研究团体使用。

具有3D关键点标签的真实世界透明对象数据集 为了方便收集大量真实世界的图像,Google建立了一个机器人数据收集系统,该系统中,机器人手臂通过轨迹移动,同时使用两个设备(立体声相机和在Kinect的Azure的深度相机。

使用带有立体摄像机和Azure Kinect设备的机械臂自动捕获图像序列 该AprilTags目标使相机的姿态进行准确跟踪。通过使用2D关键点手动标记每个视频中的少量图像,Google可以使用多视图几何图形为视频的所有帧提取3D关键点,从而将标记效率提高了100倍。 Google使用五种类别的15种不同的透明对象捕获了图像,分别使用10种不同的背景纹理和每种对象四个不同的姿势,生成了总共600个视频序列,包括48k立体和深度图像。Google还使用不透明版本的对象捕获了相同的图像,以提供准确的地面真实深度图像。所有图像都标记有3D关键点。Google将公开发布该真实世界图像的数据集,以补充共享相似对象的合成ClearGrasp数据集。 使用早期融合立体声 的KeyPose算法针对此项目,独立开发了直接使用立体声图像进行关键点估计的想法。它最近也出现在手动跟踪的背景下。

下图显示了基本概念:来自立体摄像机的两幅图像被裁剪在对象周围,并被馈送到KeyPose网络,该网络预测代表对象3D姿态的稀疏3D关键点集。使用标记的3D关键点的监督来训练网络。

立体声KeyPose的关键方面之一是使用早期融合来混合立体声图像,并允许网络隐式计算视差,与晚期融合相反,后者需要分别预测每个图像的关键点,然后进行组合。如下图所示,KeyPose的输出是图像平面中的2D关键点热图以及每个关键点的视差(即反深度)热图。这两个热图的组合会为每个关键点生成关键点的3D坐标。

关键系统图。将立体声图像传递到CNN模型,以为每个关键点生成概率热图。此热图产生关键点的2D图像坐标U,V。CNN模型还会为每个关键点生成一个视差(逆深度)热图,当与U,V坐标结合使用时,可以得出3D位置(X,Y,Z)。

与后期融合或单眼输入相比,早期融合立体声的准确度通常是后者的两倍。 结果 下图显示了KeyPose对单个对象的定性结果。左侧是原始立体图像之一;中间是投影到图像上的预测3D关键点。在右侧,Google将瓶子的3D模型中的点可视化,并将其放置在由预测的3D关键点确定的姿势上。该网络高效,准确,在标准GPU上仅需5 ms的时间,即可预测出瓶子的5.2 mm MAE和杯子的10.1 mm MAE关键点。

下表显示了KeyPose类别级别估计的结果。测试集使用了训练集看不到的背景纹理。请注意,MAE在5.8毫米至9.9毫米之间变化,表明该方法的准确性。

在类别级别的数据上,将KeyPose与最新的DenseFusion系统进行定量比较。Google为DenseFusion提供了两种深度版本,一种来自透明对象,另一种来自不透明对象。

有关定量结果以及消融研究的完整说明,请参见论文和补充材料以及KeyPose网站。 结论 这项工作表明,可以在不依赖深度图像的情况下,从RGB图像准确估计透明对象的3D姿态。它验证了使用立体图像作为早期融合深层网络的输入,在该网络中,训练该网络直接从立体声对中提取稀疏3D关键点。Google希望能够提供广泛的,带有标签的透明物体数据集,以帮助推进这一领域。最后,虽然Google使用半自动方法来有效地标记数据集,但Google希望在以后的工作中采用自我监督方法来消除手动标记。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部