使用TensorFlow 3D技术了解3D场景

使用TensorFlow 3D技术了解3D场景
2022年11月16日 16:54 科技展览中心

在过去的几年中 ,越来越多的3D传感器(例如激光雷达,深度感应摄像头和雷达)无处不在,因此需要一种可以处理这些设备捕获的数据的场景理解技术。此类技术可以使使用自动驾驶汽车和机器人等传感器的机器学习(ML)系统在现实世界中导航和操作,并可以在移动设备上创建改进的增强现实体验。最近,计算机视觉领域已开始在3D场景理解方面取得良好进展,包括用于移动3D对象检测的模型,透明对象检测的模型。等等,但是由于可用于3D数据的可用性工具和资源有限,进入该领域可能会面临挑战。

为了进一步提高对3D场景的理解并减少感兴趣的研究人员的进入障碍,Google发布了TensorFlow 3D(TF 3D),这是一个高度模块化和高效的库,旨在将3D深度学习功能引入TensorFlow。TF 3D提供了一组流行的操作,损失函数,数据处理工具,模型和度量,使更广泛的研究社区能够开发,培训和部署最新的3D场景理解模型。

TF 3D包含用于最新3D语义分割,3D对象检测和3D实例分割的训练和评估管道,并支持分布式训练。它还支持其他潜在应用,例如3D对象形状预测,点云配准和点云致密化。此外,它提供了统一的数据集规范和配置,用于训练和评估标准3D场景理解数据集。当前,它支持Waymo Open,ScanNet和Rio数据集。但是,用户可以自由转换其他流行的数据集,例如NuScenes和吉滴,到了类似的格式,并在现有的预或自定义创建管道使用它们,并可以利用TF 3D的各种3D的深度学习研究和应用,从快速原型和尝试新的想法,部署实时间推断系统。

左侧显示了来自Waymo Open Dataset的帧中TF 3D中3D对象检测模型的示例输出 。 右侧显示了来自ScanNet数据集的场景中3D实例分割模型的示例输出 。

在这里,Google将介绍TF 3D中提供的有效且可配置的稀疏卷积主干,这是在各种3D场景理解任务上获得最新结果的关键。此外,我们将介绍TF 3D当前支持的三个管道中的每个管道:3D语义分割,3D对象检测和3D实例分割。

3D稀疏卷积网络

传感器捕获的3D数据通常包含一个场景,该场景包含一组感兴趣的对象(例如汽车,行人等),这些对象大部分被开放空间包围,而这些空间是有限的(或没有兴趣)。因此,3D数据本质上是稀疏的。在这样的环境中,卷积的标准实现将需要大量计算并消耗大量内存。因此,在TF 3D中,我们使用子流形稀疏卷积和池化操作,这些操作旨在更有效地处理3D稀疏数据。稀疏卷积模型是大多数室外自动驾驶(例如Waymo,NuScenes)和室内基准(例如ScanNet)中应用的最新方法的核心。

Google还使用各种CUDA技术来加快计算速度(例如,对共享内存中的过滤器进行散列,分区/缓存以及使用位操作)。Waymo Open数据集上的实验表明,此实现比使用预先存在的TensorFlow操作的精心设计的实现快约20倍。

然后,TF 3D使用3D子流形稀疏U-Net架构为每个体素提取特征。通过让网络提取粗略特征和精细特征并将其组合以进行预测,U-Net架构已被证明是有效的。U-Net网络由三个模块组成,一个编码器,一个瓶颈和一个解码器,每个模块由许多稀疏卷积块组成,并可能进行池化或非池化操作。

3D稀疏体素U-Net架构

请注意,水平箭头将接受体素特征并对其应用子流形稀疏卷积。向下移动的箭头执行子流形稀疏合并。向上移动的箭头将收集合并的要素,将其与来自水平箭头的要素合并,并对合并后的要素执行子流形稀疏卷积。

上面描述的稀疏卷积网络是TF 3D中提供的3D场景理解管道的基础。下面描述的每个模型都使用此主干网络来提取稀疏体素的特征,然后添加一个或多个其他预测头来推断感兴趣的任务。用户可以通过更改编码器/解码器层的数量以及每层中卷积的数量,并通过修改卷积滤波器的大小来配置U-Net网络,从而可以通过不同的骨干网配置

3D语义分割

3D语义分割模型仅具有一个输出头用于预测每个体素的语义分数,其被映射回点来预测每点一个语义标签。

从ScanNet数据集中室内场景的3D语义分割

在3D实例分割中,除了预测语义之外,目标是将属于同一对象的体素分组在一起。TF 3D中使用的3D实例分割算法是基于我们先前使用深度度量学习进行2D图像分割的工作。该模型预测每个体素实例的嵌入矢量以及每个体素的语义评分。实例嵌入向量将体素映射到一个嵌入空间,在该空间中,对应于同一对象实例的体素靠得很近,而对应于不同对象的体素则距离很远。在这种情况下,输入是点云而不是图像,并且它使用3D稀疏网络而不是2D图像网络。在推理时,有一个贪心算法 一次选择一个实例种子,并使用体素嵌入之间的距离将其分组。

3D对象检测

3D对象检测模型预测每个体素的大小,中心和旋转矩阵以及对象语义分数。在推断时,使用框提议机制将成千上万的每个体素的框预测减少为几个准确的框提议,然后在训练时,将框预测和分类损失应用于每个体素的预测。我们应用胡贝尔损失预测角与实角角之间的距离。由于根据其大小,中心和旋转矩阵估算盒子边角的函数是可微的,因此损耗将自动传播回那些预测的对象属性。我们使用动态框分类损失,该分类框将与地面真实性强烈重叠的框分类为正,而将不重叠的框分类为负。

Google在ScanNet数据集上的3D对象检测结果。 在我们最近的论文" DOPS:学习检测3D对象并预测其3D形状"中,我们详细描述了用于TF 3D中对象检测的单阶段弱监督学习算法。此外,在后续工作中,我们通过提出基于LSTM的稀疏多帧模型,扩展了3D对象检测模型以利用时间信息。我们继续证明,在Waymo Open数据集中,该时间模型的性能比逐帧方法好7.5%。

在DOPS论文中引入了3D目标检测和形状预测模型 。3D稀疏U-Net用于为每个体素提取特征向量。对象检测模块使用这些功能来建议3D框和语义分数。同时,网络的另一个分支预测形状嵌入,该形状嵌入用于为每个对象输出网格。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部