CVPR 2022 | 大幅提升全景分割效率,谷歌联合学界从聚类角度重新解释掩码转换器

CVPR 2022 | 大幅提升全景分割效率,谷歌联合学界从聚类角度重新解释掩码转换器
2022年08月12日 18:09 麻省理工科技评论

在自动驾驶、图像识别等领域,图像分割技术是其核心技术之一。全景分割方法是近年来发展迅速的最前沿的一种重要方法,它不仅可以赋予计算机更多的想象力,还可以帮助其预测周围的环境。

早期的全景分割方法通常将全景分割分为两大类任务,即语义分割(semantic segmentation)和场景分割(occasion segmentation)。在自动驾驶场景中,语义分割的目的是给图片中的每个像素分配其语义标签,如“行人”“天空”等,在接下来进行的场景分割中,计算机则会在图片中找到并分割出每一个可数的对象,如“行人 A”、“行人 B”、“汽车 A”等等。

而且更为繁琐的是,这两类任务还被划分为许多个子任务,其中每个子任务都被单独处理,之后每个子任务阶段的结果,则通过进一步的模块来合并。这样带来的问题是,在处理子任务并将不同子任务阶段的结果进行合并时,会引入许多手工模块。

在 2021 年的 CVPR 上,由谷歌研究院以及美国约翰霍普金斯大学的研究人员发表的 MaX-DeepLab 方法的相关论文里,受转换器(Transformer) 和 DETR 方法的启发而提出,该方法是一种使用了掩码转换器的端到端的解决方案,有效克服了上述缺陷。

具体来说,该方法采用由卷积神经网络组成的像素路径,来完成像素提取的工作;并且采用由转换器解码模块组成的记忆路径,来进行记忆的提取;同时还引入了双路径转换器,来完成所选像素与所选记忆之间的交互工作。

不过这一方法存在一个问题:双路径转换器中的交叉注意力模块,本来是为语言任务而开发,也就是说作为输入的序列通常只有几十个或更多的短语。

但是如果将这一方法用于全景分割,尤其是那些带有联想型或前瞻性的任务中时,作为输入的序列则由数十个或更多的像素组成,规模变庞大了许多,这时该方法就有些余力不足。

也就是说,将原本为自然语言任务设计的交叉注意力模块应用于图像领域,需要进一步的调整。

▲图|发表在 CVPR2022 的有关 CMT-DeepLab 的论文(来源:CVF)

而就在最近,该团队在 CVPR 2022 上发布的名为《CMT-DeepLab:用于全景分割的聚类掩码转换器》(CMT-DeepLab: Clustering Masks Transformers for Panoptic Segmentation)以及在 ECCV 2022 上发表的《kMaX-DeepLab:k-means掩码转换器》(kMaX-DeepLab: k-means Masks Transformer)这两篇论文中,针对 Max-DeepLab 方法进行了改进,尤其是将交叉注意力以聚类的视角进行了重新解释与设计,提出了更适合带有联想型或前瞻性任务的全景分割方法。

图|发表在 arXiv和 ECCV2022 的有关 kMax-DeepLab 的论文(来源:arXiv

研究团队之所以选择从聚类的视角重新解释交叉注意力,就是为了在不对 MaX-DeepLab 等方法进行大型修改的前提下,就可以将其包括交叉注意力等部分直接应用于带有联想型或前瞻性的任务中。

特别是研究人员发现,在 MaX-DeepLab 方法中的掩码转换器,所需解决的问题通常是集群设施(cluster facilities)问题,也就是将像素按标签进行分组;而且其中的交叉注意力模块的采用的方法与 k-means 聚类算法也很类似。

简单来说,k-means 聚类算法分为两大步骤:首先,在迭代聚类分配中,将像素分配给集群设施,其中有时有可能单个集群设施被分配了许多像素,而有的集群设施却没有被分配任何像素;其次,在聚类更新这一步中,让每个集群设施分配到均匀的像素,也就是说,如果有某个集群设施没有分配到任何像素,这个集群设施就没有完成更新。

在 CMT-DeepLab 和 kMaX-DeepLab 这两个方法中,受到 k-means 聚类算法的启发,研究人员将交叉注意力模块从聚类的角度再次定制,其中也包含有迭代聚类分配和聚类更新这两步。

图|CMT-DeepLab 方法概述(来源:CVF

简单来说,在 MaX-DeepLab 方法的基础上改进构建的 CMT-DeepLab 方法,通过采用像素聚类策略来完成交叉注意力的执行工作,从而能生成更密集且更可信的考量映射。

而 kMaX-DeepLab 方法则通过仅仅通过对原方法简单改动,就将交叉注意力进行了重新设计,使之更接近于 k-means 聚类算法。

图|在 kMaX-DeepLab 方法,为了将典型的转换器解码器转换为 kMaX 解码器,只需用 k-means 交叉注意力模块(红色虚线框标注的 argmax)替换掉 Max-DeepLab 中原始的交叉注意力(来源:arXiv)

相比之下,CMT-DeepLab 可以使整体效率大幅提升,而 kMaX-DeepLab 则将所需的修改大幅地简化,并在不增加测试时间的基础上就将全景分割的最先进技术进行了改进。目前,kMaX-DeepLab 分割模型已经在 DeepLab2 库中开源推出。

图|CMT-DeepLab 可以生成比 MaX-DeepLab 方法更密集的交叉注意力,图像分割的效果也更好(来源:CVF

▲图|kMaX-DeepLab 方法中每个 kMaX 解码器阶段的像素簇分配的可视化以及最终的全景分割(来源:arXiv)

研究人员还将这两种方法在高难度的全景分割数据集 COCO 上进行了测试,并使用全景质量 PQ 这一指标来进行对比和度量。

图|CMT-DeepLab 以及此前的其他方法在 COCO 的验证集(val-set)和测试开发集上的结果(来源:CVF

结果显示,CMT-DeepLab 的性能比此前最先进的技术提高了 4.4%PQ,在 COCO 测试开发集上实现了 PQ 为 55.7%PQ 的好成绩。

图|kMaX-DeepLab 和其他方法在 COCO 验证集上的成绩(来源:arXiv

而 kMaX-DeepLab 方法在将所需的修改大大简化的同时,也实现了性能的提高。在 COCO 验证集上,得到了 PQ 为 58.0% 的好成绩,是目前同类方法中的最好成绩。

参考资料:

https://arxiv.org/abs/2206.08948

https://arxiv.org/abs/2207.04044

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部