CVPR 2022 | 大幅提升全景分割效率，谷歌联合学界从聚类角度重新解释掩码转换器_

在自动驾驶、图像识别等领域，图像分割技术是其核心技术之一。全景分割方法是近年来发展迅速的最前沿的一种重要方法，它不仅可以赋予计算机更多的想象力，还可以帮助其预测周围的环境。

早期的全景分割方法通常将全景分割分为两大类任务，即语义分割（semantic segmentation）和场景分割（occasion segmentation）。在自动驾驶场景中，语义分割的目的是给图片中的每个像素分配其语义标签，如“行人”“天空”等，在接下来进行的场景分割中，计算机则会在图片中找到并分割出每一个可数的对象，如“行人 A”、“行人 B”、“汽车 A”等等。

而且更为繁琐的是，这两类任务还被划分为许多个子任务，其中每个子任务都被单独处理，之后每个子任务阶段的结果，则通过进一步的模块来合并。这样带来的问题是，在处理子任务并将不同子任务阶段的结果进行合并时，会引入许多手工模块。

在 2021 年的 CVPR 上，由谷歌研究院以及美国约翰霍普金斯大学的研究人员发表的 MaX-DeepLab 方法的相关论文里，受转换器（Transformer）和 DETR 方法的启发而提出，该方法是一种使用了掩码转换器的端到端的解决方案，有效克服了上述缺陷。

具体来说，该方法采用由卷积神经网络组成的像素路径，来完成像素提取的工作；并且采用由转换器解码模块组成的记忆路径，来进行记忆的提取；同时还引入了双路径转换器，来完成所选像素与所选记忆之间的交互工作。

不过这一方法存在一个问题：双路径转换器中的交叉注意力模块，本来是为语言任务而开发，也就是说作为输入的序列通常只有几十个或更多的短语。

但是如果将这一方法用于全景分割，尤其是那些带有联想型或前瞻性的任务中时，作为输入的序列则由数十个或更多的像素组成，规模变庞大了许多，这时该方法就有些余力不足。

也就是说，既将原本为自然语言任务设计的交叉注意力模块应用于图像领域，需要进一步的调整。

▲图｜发表在 CVPR2022 的有关 CMT-DeepLab 的论文（来源：CVF）

而就在最近，该团队在 CVPR 2022 上发布的名为《CMT-DeepLab：用于全景分割的聚类掩码转换器》（CMT-DeepLab: Clustering Masks Transformers for Panoptic Segmentation）以及在 ECCV 2022 上发表的《kMaX-DeepLab：k-means掩码转换器》（kMaX-DeepLab: k-means Masks Transformer）这两篇论文中，针对 Max-DeepLab 方法进行了改进，尤其是将交叉注意力以聚类的视角进行了重新解释与设计，提出了更适合带有联想型或前瞻性任务的全景分割方法。

▲图｜发表在 arXiv和 ECCV2022 的有关 kMax-DeepLab 的论文（来源：arXiv）

研究团队之所以选择从聚类的视角重新解释交叉注意力，就是为了在不对 MaX-DeepLab 等方法进行大型修改的前提下，就可以将其包括交叉注意力等部分直接应用于带有联想型或前瞻性的任务中。

特别是研究人员发现，在 MaX-DeepLab 方法中的掩码转换器，所需解决的问题通常是集群设施（cluster facilities）问题，也就是将像素按标签进行分组；而且其中的交叉注意力模块的采用的方法与 k-means 聚类算法也很类似。

简单来说，k-means 聚类算法分为两大步骤：首先，在迭代聚类分配中，将像素分配给集群设施，其中有时有可能单个集群设施被分配了许多像素，而有的集群设施却没有被分配任何像素；其次，在聚类更新这一步中，让每个集群设施分配到均匀的像素，也就是说，如果有某个集群设施没有分配到任何像素，这个集群设施就没有完成更新。

在 CMT-DeepLab 和 kMaX-DeepLab 这两个方法中，受到 k-means 聚类算法的启发，研究人员将交叉注意力模块从聚类的角度再次定制，其中也包含有迭代聚类分配和聚类更新这两步。