CVPR 2021，华人在多个奖项大放异彩，各项大奖花落谁家？_

考虑到疫情对国际旅行的影响，以及鼓励更多来自全球的研究者、学生积极参与，一年一度的计算机视觉方面顶级学术会议 CVPR 2021选择于线上举办，正式议程于美国时间本周一线上召开。

今年 CVPR 的各大奖项颇受关注，评奖工作早已在大会筹备期间完成，获奖结果也在议程第一天宣布。

在总共21,036名投稿作者当中，来自中国的作者高达8,203人，约占四成，远超来自美国、韩国和英国的作者。

和往年相同，不仅作者和投稿数量占比高，华人研究者继续在多个奖项和提名中大放异彩，持续提升在计算机视觉领域内的代表性。

今年，德国马克思·普朗克学会旗下的智能系统研究所 (MPI Inteliligent Systems) 斩获 CVPR 2021 最佳论文奖。Facebook AI 研究所（以下简称 FAIR）的两位华人研究者共同撰写的论文，以及另一篇来自明尼苏达大学研究者的论文，双双获得 CVPR 2021 最佳论文提名。来自加州理工和西北大学，Jennifer J. Sun 一作的论文，获得 CVPR 2021 最佳学生论文奖。

另有三篇论文获得最佳学生论文提名，其中两篇有华人学者参与。

CVPR 2021 组委会还颁布了过往杰出研究类奖项 PAMI-TC 奖，包括三个奖项：经典论文、年轻学者，和去年新发起的 Thomas Huang 纪念奖。其中，经典论文奖 (Longuet-Higgins Prize) 颁给了两篇发布已达到10年的经典论文，分别来自微软剑桥研究院和纽约州立大学石溪分校。

最佳论文奖

CVPR 每年都会颁发多个奖项，其中最佳论文奖 (Best Paper Award) 是压轴奖项，颁发给评委会认为今年所有接收论文当中质量最高的王者级论文。

CVPR 2021 的最佳论文奖颁给了 GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields，作者为德国顶级研究联合机构马普所和图宾根大学的研究者 Michael Niemeyer 和 Andreas Geiger.

这篇论文关注的议题在当下也很流行——深度神经网络的图像合成，简单一点的比如基本几何形状的物体，复杂一点的如场景和人脸等。

这篇论文提出并希望解决一个重要问题：当下的图像合成技术已经可以生成高分辨率的结果，但是因为它们的工作环境是二维的，合成的过程高度不可控，在实际应用场景会出现畸变甚至错误的结果。

论文的作者提出一个重要的假设：如果在图像合成模型中，引入三维的环境，生成过程将会变得更加可控，图像合成效果将会更好。因为这样可以让系统更容易地从输入的数据中更加准确地分离出目标物体，更好地理解目标物体的真实形状和外观，从而实现更好的合成效果。

基于二维场景的传统生成对抗模型的图像合成效果，可以看到生成的物体形状、颜色、位置都非常不稳定：

论文提出的 GIRAFFE方法，合成的新物体更加稳定：

GIRAFFE 方法的基本原理，就是在深度学习模型中加入一个生成神经特征场，帮助模型更好地理解场景的构成。

以下是这篇CVPR2021最佳论文的视频演示：

论文第一作者 Michael Niemeyer[1]是马普所智能系统研究所/图宾根大学自动视觉组 AVG 的博士生，同时还在谷歌大脑团队担任研究实习生。Niemeyer 的主要研究方向是3D视觉，特别专注于神经场景表达方面，即如何让场景在深度神经网络中得到最好的表达。

最佳论文提名

CVPR 2021 最佳论文提名有两篇，其中 Exploring Simple Siamese Represnetation Learning 一文来自 Facebook 的 FAIR，作者为华人研究员陈鑫磊 (Xinlei Chen) 和何恺明 (Kaiming He)。

这篇论文主要探讨的是孪生神经网络 (Siamese Network)，一种无监督视觉表征学习当中的常见网络结构。简单来说，孪生神经网络就是把两个输入 (input 1 & input 2) 输入到共享权重的两个相同网络里，然后共同输出损失函数。

（这个网络模式也比较古老了，深度学习“三剑客”之一的 Yann LeCun 在上世纪90年代用光学字符识别做支票验真的时候就有用孪生神经网络的架构。）

而今天我们提到的这篇在 CVPR 2021 拿到最佳论文提名的论文，提出了一个新的 SimSiam 方法，是一种简单的孪生神经网络架构，没有加入负样本对等此前研究认为需要加入的复杂设计，也可以避免领域内的一个“崩溃解”(Collapsing Solution) 的出现。

使用该方法，研究者在 ImageNet 以及其它下游任务上取得了“具有竞争力”的成绩。他们希望这一新发现能够鼓励其他研究者，重新思考孪生神经网络应用于无监督表征学习当中的架构。

论文第一作者陈鑫磊[2]目前在 FAIR 担任研究科学家。陈鑫磊从卡内基梅隆大学语言技术研究所拿到博士学位，此前也曾和李飞飞、李佳、麻省理工 William Freeman 教授（本届大会经典论文奖评奖主席）共事。他本科毕业于浙江大学计算机系。

论文的另一位作者，圈内的朋友应该非常熟悉了——何恺明[3]，ResNet 论文的第一作者，CVPR、ICCV 等顶级学术会议多届最佳论文奖、最佳学生论文奖，以及2018年 CVPR 大会 PAMI 年轻学者奖的得主，并且也是这些大会过去多年以来的领域主席。他即将担任 ICCV 2023 程序主席。

何恺明、孙剑等人2016年在微软研究院工作时提出的深度残差网络 ResNet，是过几年以来深度学习领域非常关键的模型，对应论文 Deep Residual Learning for Image Recognition 也是2020年 Google Scholar 全部领域引用最多的论文。

最佳学生论文

今年 CVPR 的最佳学生论文奖颁发给了加州理工和西北大学团队共同撰写的 Task Programming: Learning Data Efficient Behavior Represnetations 一文。该论文的第一作者为 Jennifer J. Sun，指导教授为加州理工的岳一松 (Yisong Yue) 和 Pietro Perona.

这篇论文聚焦的是数据标注工作。数据标注对于机器学习有多重要已经毋庸置疑。由于机器学习相关应用的流行，促进了行业的快速发展，在中国甚至出现了专业的数据标注这一工种。

此文探讨的更多的是更加专业的特定领域数据标注。简单来说，特定专精、更加深度的机器学习训练，需要具备足够专业知识的领域专家进行数据标注。但让具备这些知识的专家来从事数据标注，并不是很经济，毕竟数据标注是一个高度重复和劳累的脑/体力工种。

这篇论文提出了一个新的程序化数据标注方法 TREBA (Trajectory Embedding for Behavior Analysis)。具体来说，这种方法可以帮助领域专家快速地将专业知识进行结构化的编程，而编写出来的程序可以准确地对行为神经科学领域（作者的主攻方向）的数据素材进行标注，用时仅为人工标注的十分之一。

下面动图为 TREBA 方法的演示，以小鼠行为数据为例：

论文第一作者 Jennifer J. Sun[4]目前是加州理工计算和数学系博士生，主攻方向是用机器学习对人类和动物行为进行感知和建模。这一方向位于行为分析和计算机视觉的交叉点。Sun 是所在院系的 TA，也是去年院系博士奖学金获得者，此前还曾在 Google Research 实习。她本科毕业于多伦多大学，是2017届的最高分毕业生和该校威尔逊奖章获得者。

Sun 今年有两篇论文入选 CVPR 2021 Oral 论文，去年还成功获得了两项计算机视觉方面的美国专利，被认为是一颗冉冉升起的学术新星。