ACM MM 2022 | Cloud2Sketch: 长空云作画，AI笔生花_

在即将到来的ACM MM 2022学术会议上，来自美国罗彻斯特大学、得克萨斯大学奥斯汀分校和Snap Research的作者们将展示一项名为“Cloud2Sketch”的有趣工作。

你可曾仰望天空，想象着云朵的形状？在这篇文章中，作者们展示一项用想象出的素描增强云层的有趣任务。

与一般意义的图像到素描转换任务不同，这项任务面临着独特的挑战：现实世界的云和物体的相似性各不相同；凭空生成的绘画往往会产生不可辨认的物体；而从素描库检索的方案由于形状上的不一致并不能直接适用；同时最优的想象也是主观的。

作者提出“Cloud2Sketch”——一个新颖的自监督方法——以解决上述的挑战。首先，作者用一个云层检测器和一个二值化算法来获得云层轮廓。接着云层的轮廓通过检索模块找到与其几何形状相似的素描。最后，作者用一个新颖的素描转换模型来对齐素描和云层的边缘。

为了帮助训练，作者收集了名为“Sketchy Zoo”的图标素描库。基于这个新的素描库，广泛的实验定性和定量地验证了作者方法的有效性。

项目主页：https://wanzy.me/research/cloud2sketch

背景和介绍

将云朵这样自然界中随处可见的形状想象为作者熟悉的物体，是人的本性，也是创造力的来源。作者在这篇工作中尝试将这个有趣的想象带入现实。

增强自然图片的技术在增强现实应用中一直有着重要的作用。由于在表示物体上普遍而抽象的能力，素描又是这类应用最自然的媒介之一。因此素描图片的生成、检索吸引了很多研究的注意。但同时，作者的应用和已有的素描相关的研究并不相同。与素描图片的检索相比，云朵的增强需要形状上的准确对齐；与用梗概的笔触完整描绘自然场景的素描生成相比，想象的素描则来源于不完全的线索。

云朵形态各异飘忽不定，因此也会唤起人们不同的想象

考虑任务本身，云朵的形状特征非常多样并可能模糊不清。可行的想象应当聚焦在整体形状上而忽略噪声和微小的形状细节。因此，作者根据云朵的轮廓来构造联想。但在另一方面，只考虑云的外部形状也未必能对应一个有意义的物体 (本文中特指动物)。

方法

作者提出以想象的素描增强云朵的流程

人们通常经过如下步骤来构建想象：(1) 观察目标物体的形状；(2) 构建从观察的特征到“视觉语料”的联想；(3) 将联想到的视觉物体投影到目标上形成“想象”。类似地，作者的方法在整体架构上分为三个部分：云朵轮廓检测、预定义素描库中的联想搜索、素描对齐。

适用不可知素描对齐的FFD-Generator

中心的想法是云朵自己已然“构成”了动物的素描，但是以不可知(agnostic)的空间形态。由此，不可知的素描对齐的目的是将一个素描“源”向(可能只有部分的)云朵形状目标对齐的同时，保持其主体和风格。这一步由一个两个组件组成的神经网络完成。因为内置了Free Form Deformation (FFD) 作者将它命名为FFD-Generator。FFD-Generator 的开始是一个FFD模块，用一个轻量的CNN来估计一个形变以达成初步的对齐。与传统的STN不同，作者估计的FFD有更大的自由度和灵活性。

素描对齐的训练是完全自监督的。生成器的目标是从部分轮廓恢复出扭曲之后的素描图，因此可以通过对素描图片进行形变、遮挡来构造训练数据。

基于轮廓的素描检索训练

素描检索是构成想象的关键。每当作者从云朵中提取出边界，作者可以通过一个多样的素描库定位到形状最相关的素描图片。

作者将自然图片转化为edge map以构造云朵轮廓检测的数据集

图片通道对于二值算法的影响

作为增强的起点，作者的算法寻找那些具有明确边缘的云朵。在计算机视觉的文献中，已经有不少云层分割、检测的数据集和算法。然而，它们中没有一个能实现云层或云朵相互之间的区分，这对作者的任务却是至关重要的。作者在本文中使用合成数据训练云朵的检测以避免繁重的数据标注工作。作者将边缘检测算法应用在自然场景的物体检测数据集上，以此获取带有标注的训练数据。在推理阶段，相同的边缘检测算法被应用在图像的天空区域，便可取得和训练时类似的边缘图。

在检测得到的云朵包围盒内部，作者使用一种二值化算法定位云朵的像素区域，其中特征通道 B/R 取值于蓝色和红色通道的计算：

结果和评测

增强结果的定性展示

作者使用收集的Sketchy Zoo数据集来训练算法。上图中展示了每个模块的中间结果和最终的增强效果。从图中可以看出，云朵检测定位出图片中显著的云朵。云朵的分割可以方便地转化为轮廓，并用作检索和对齐的输入。在库中的检索成功搜索到几何相似的素描图，它们经过FFD- Generator的对齐之后能精确地贴合云朵的形状，同时忠诚地保持素描的主题。

用户Cloud2Sketch的用户调研

考虑到这是一个非常主观的任务，在其他定性和定量评测之外，作者还引入了用户调研以评测任务和方法。首先作者邀请参与者对任务做出评价，结果体现出此任务的普遍性：所有参与者都认同自己或多或少地有过类似的想象。其中27%的参与者认为这是“频繁”的。在看到具体的生成结果之前，2/3的参与者体现了超过“一般”程度的兴趣。

接着作者向参与者展示10张算法生成的云朵增强结果，并邀请他们给出评价。参与者在“有趣”这项得分上给出了最一致的高度正面评价，同时在“重合”一项上表现出明显的争议。此项代表的含义是算法生成的想象和参与者的想象是否重合。作者认为这是非常有趣的现象，鉴于参与者普遍在“合理”和“自然”两项指标上给出高分(代表对算法结果的认同)。这验证了作者在本文开头的预期：一个计算算法不仅映射出人们的想象，同时也会用不同的联想启发人。

结论

在本文中，作者展示了一种新的应用任务——用想象的动物素描增强云朵——以将想象带入现实。作者设计了一种自监督的流程来处理此任务独有的挑战。通过把该任务拆分为三个阶段：云朵检测，素描检索，素描对齐，文中提出的流程成功用明晰的素描增强云朵。作者以详尽的实验验证方法的有效性，并提供了翔实的用户调研作为此应用未来的指导。

头条号入驻

AI科技评论aitechtalk 雷锋网旗下学术频道「AI科技评论」

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

ACM MM 2022 | Cloud2Sketch: 长空云作画，AI笔生花

头条号入驻

生图超级外挂！贾佳亚团队提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸组合

独家｜上海人工智能实验室将迎新的主任人选，曾是 GAIR 主讲嘉宾

专访姚建华、杨帆：腾讯 AI Lab 为何瞄准单细胞蛋白质组学

财经自媒体联盟更多自媒体作者

热文排行榜