通过像素到段对比学习进行通用弱监督分割

通过像素到段对比学习进行通用弱监督分割
2022年11月16日 14:49 科技分享达人

Bair考虑一个问题:机器可以从几个标记像素中学习来预测新图像中的每个像素吗? 这项任务极具挑战性(见图 1),因为单个身体部位可能包含视觉上不同的区域(例如,头部由眼睛、鼻子和嘴巴组成);不同的身体部位可能看起来相似且无法区分(例如,上臂与下臂)。如果Bair不提供任何精确的位置而只提供图像中身体部位的出现,则可能会更加困难。这个问题被称为弱监督分割,其目标是仅使用部分/弱监督将每个像素分类为语义类别。有许多形式的弱注释虽然便宜但并不完美,例如图像级标签、边界框、点和涂鸦。

这些形式的弱监督伴随着不同的假设,最先进的方法以不同的方式处理它们。弱监督大致可以分为两类:粗监督和稀疏监督。粗标注,包括图像标签和边界框,缺乏精确的像素定位,依靠类激活图(CAM)来定位粗语义线索并生成伪像素标签。稀疏注释(例如点和涂鸦)仅标记一小部分像素,并且条件随机场 (CRF) 通常用于将标签传播到未标记的像素。然而,为每种形式的弱监督开发单独的方法是令人沮丧的。这个问题促使Bair开发一种单一的方法来处理普遍的弱监督分割问题。事实上,弱监督分割问题可以看作是半监督像素分类问题。关键是如何将注释从粗略和稀疏标记的像素传播和细化到未标记的像素?

度量学习和对比损失公式

为了解决半监督学习问题,Bair采用特征表示学习的观点。Bair的目标是学习最佳的逐像素特征映射,以对相同(不同)类别的(单独)像素进行分组。对于图像中的每个像素,Bair使用分割 CNN 生成相应的嵌入(或特征表示)。因此,Bair可以将语义标签从标记像素传播到这个潜在特征空间中的相邻未标记像素。

Bair采用度量学习框架和对比损失公式来学习最佳像素特征映射。更具体地说,Bair将图像分解成几个片段并计算每个片段的代表性特征(通过平均每个片段内的像素嵌入)。对于每个像素,Bair收集与正集相同类别的片段,反之亦然。如下图所示,然后Bair训练网络以增加(减少)像素与其正(负)段集之间的距离。

弱监督的分组关系

在这里,Bair看到度量学习框架中立即出现了一个问题。 Bair如何处理度量学习框架中未标记的像素和段?在监督设置下,未标记的像素和段在对比损失公式中被忽略。在点注释的情况下,由于大多数像素未标记,监督信号将太稀疏而无法学习良好的特征映射。

相反,Bair的关键见解是将它们整合到判别特征学习中以加强监督。Bair探索了从图像中的视觉线索和语义信息得出的四种分组关系。根据这些分组关系,Bair可以为图像中的每个像素定义对应的正负集。如下图所示,分组关系基于(a)低级图像相似度,(b)语义标注,(c)语义共现和(d)特征亲和度。

事实上,每个分组关系对应一个特定的先验,这是作为像素级特征映射的学习目标之一引入的。 (a) 低级图像相似性与视觉相干区域中的空间平滑先验相关。直觉是,外观相似的像素更有可能属于同一类别。 (b) 语义注释是图像中的局部语义线索,例如点/涂鸦/CAM。 (c) 语义共现反映场景-上下文的相似性。同一场景中的对象应该比不同场景中的对象在语义上更相似。例如,野生动物总是在室外,但家具通常在室内。Bair将共享任何语义类的两个图像视为相似上下文,反之亦然。 (d) 特征亲和度考虑了潜在特征空间中的先验平滑度。

如上图所示,Bair可以定义相应的正负段集,并根据每个分组关系得出四个对比损失。通过联合训练具有这些损失的分割 CNN,Bair可以找到最佳的特征映射。

全面改进

如下图所示,对于每种形式的弱监督,Bair的方法都大大优于其他方法。

上下文检索

为了演示由逐像素特征映射编码的语义信息,Bair使用图像片段及其特征执行最近邻检索。如下图所示,给定查询段(左),Bair观察到Bair的检索(右上)比基线方法(右下)处于更相似的场景上下文中。例如,Bair检索到的马正在跳过障碍,这与查询马的上下文相匹配。

通用弱监督分割的解决方案

在这项工作中,Bair提出了一种单一方法来解决所有形式的弱监督,即使它们带有不同的假设。Bair的核心思想是学习像素级特征映射,它尊重各种类型的分组关系。这些分组关系可以很容易地从图像中的低级视觉线索和语义信息中推导出来。最后,鉴于每种形式的弱注释,Bair展示了优于其他基线方法的性能。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部