嬴彻科技CTO杨睿刚博士与你分享CVPR 2021入选论文

嬴彻科技CTO杨睿刚博士与你分享CVPR 2021入选论文
2021年06月22日 15:21 机器之心Pro

机器之心发布

机器之心编辑部

在本文中,嬴彻科技首席技术官(CTO)杨睿刚博士就被本届大会被收录的 5 篇论文为大家带来解读。

一年一度的 CVPR 2021 正如火如荼地在线上举行,来自全球的逾 7,000 位学者通过线上网络分享和交流计算机视觉和人工智能领域的前沿研究。

嬴彻科技首席技术官(CTO),杨睿刚博士,就被本届大会收录的 5 篇论文为大家带来一一解读。此外,作为 CVPR 2021 大会程序主席(Program Chair),他也分享了对今年的大会论文投稿数、接收率、论文质量等方面的看法。

这 5 篇论文,包含 2 篇 Oral 论文,主要集中在语义分割、迁移语义、深度估计等方向,具有较高的工业化应用前景,能够为高阶自动驾驶方案提供充分的理论支撑。这 5 篇论文也是嬴彻科技的研发人员与香港大学、香港中文大学、北京理工大学等研究机构基于嬴彻自动驾驶系统研发工作的共同成果。

论文分享,自动驾驶学术前沿一睹为快

1、圆柱坐标系和非对称 3D 卷积神经网络在激光点云划分中的应用

Cylindrical and Asymmetrical 3D Convolution Networksfor LiDAR Segmentation

在语义分割任务中,模型的任务是为 3D 点云中的每个点分配一个语义标签。为了解决室外点云的密度不均和稀疏性问题,该论文提出了包含圆柱坐标系下的体素划分和非对称 3D 卷积网络两大部分的框架。前者负责对点云进行圆柱体形式的划分,这种方法适配了激光雷达扫描时的扇形分布特性,避免了远近处获得的点云数量不均匀。后者可更好地匹配驾驶场景下的物体分布和形状,并基于二维和三维分解挖掘上下文信息,从多角度看到每个点云的全貌,从而解决点云稀疏性难题。最后,该论文还引入了一个 point-wise 模块来改进前面得到的体素块输出,以点块结合的方式提高了辨识精度。

这项新的算法在两个大型室外场景数据集(SemanticKITTI 和 nuScenes)上进行了模型评估。在 SemanticKITTI 数据集上,新框架取得了两项第一。在 nuScenes 数据集上,新方法的表现也大大超过了之前的方法。

新的算法被应用在嬴彻科技自动驾驶系统的感知算法中,作为 “精准语义分割 3D 感知技术” 的核心算法,能够更鲁棒、更及时感知道路上突发遇到的各类物体,从而帮助自动驾驶系统更准确地做出决策规划,让高速行车更安全。

关键词:圆柱坐标系,点云语义分割

论文链接:https://github.com/xinge008/Cylinder3D

2、领域自适应的迁移语义增强

Transferable Semantic Augmentation for Domain Adaptation

增强结果可视化

领域自适应主要是研究如何利用具有大量标签的源域知识,来辅助模型在一个相关但是无标签的目标域上的学习。现有的领域自适应方法大多是基于一个共享的源域监督分类器来对齐两个域的特征表示。然而,这种分类器限制了模型在未标记目标域上的泛化能力。

针对这个问题,该论文提出了一种迁移语义增强方法(TSA):通过朝着目标域的语义方向,隐式地生成源域增强特征,利用这些具有目标域语义的增强特征来提高模型在目标域上的泛化能力。

在该论文中,对于每一类,TSA 利用一个多元正态分布来建模两个域之间该类的语义差异,然后从构建的分布中随机采样语义增强方向来增强源域特征。最后,论文通过最小化一个期望损失函数的上界实现了源域特征的无限增广。相比于其他应用于 DA 的数据增强方法,TSA 是隐式增强,其引入的额外计算开销几乎可忽略不计,更轻量通用。在多个公开的跨领域数据集上,TSA 都取得了更有竞争力的实验结果。

关键词:语义迁移,隐式增强

论文链接:https://github.com/BIT-DA/TSA

3、高效推断的动态领域自适应

Dynamic Domain Adaptation for Efficient Inference

以往的领域自适应算法大多利用复杂而强大的深层神经网络来提高自适应能力,并取得了显著的成功。然而,它们可能无法适用于实时交互等实际情况,即在有限的计算资源下低延迟是一个基本要求。

为了解决这个问题,本文提出了一种动态领域自适应(DDA)框架,该框架既能在低资源场景下实现高效的目标推理,又能继承领域自适应算法带来的良好跨域泛化特性。与静态模型不同,通过在网络中配置多个中间分类器来动态推断 “更简单” 和“更困难”的目标数据,DDA 可以将各种领域混淆约束集成到任意的经典自适应网络中,简单而通用。

此外,该论文还提出了两种新的策略来进一步提高多个预测出口的自适应性能:1)基于置信度得分的学习策略——充分挖掘不同分类器的预测一致性,以此获得目标域数据的准确伪标签;2)类平衡的自训练策略——在不损失预测多样性的前提下,使多阶分类器从源域显式地适配到目标域上。多个基准上的实验验证了 DDA 算法在域迁移和资源受限的情况下,仍能够持续地提高自适应性能并加速目标推理。

关键词:领域自适应,推理加速

论文链接:https://github.com/BIT-DA/DDA

4、针对长尾图像识别的元语义增广

MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition

现实世界的训练数据通常表现为长尾分布,其中几个多数类的样本数量显著多于其余少数类。这种不平衡的数据分布使得专为平衡数据集设计的监督算法出现性能退化。

为了解决这个问题,本篇论文利用最近提出的隐式语义数据增强 (ISDA) 算法来增强少数类。该算法通过沿着多个有语义意义的方向,变换深度特征来产生多样化的增强样本。但是,ISDA 是利用各类的统计信息而获取的语义方向,其在缺乏训练样本的少数类上会表现欠佳。为此,论文提出了一种基于元学习的自动学习语义变换方向的方法。

具体地,训练过程中的增广策略是动态优化的,目标是最小化小型平衡验证集上的损失,这一过程可用一步元更新近似。在 CIFAR-LT-10/100、ImageNet-LT 和 iNaturalist 2017/2018 上的实验结果证明了此方法的有效性。

关键词:数据不均衡,语义变换

论文链接:https://github.com/BIT-DA/MetaSAug

5、使用对极时空网络的多视图深度估计

Multi-view Depth Estimation using Epipolar Spatio-Temporal Network

该论文针对多视角立体视觉(Multi-view Stereo)应用在视频的场景,提出了一种利用时序相关性的新方法。过去的多视角立体几何的方法,通常只能单独估计每一帧图片的深度信息,无法利用视频的时序相关性来提高准确度。该论文提出了一种新颖的极几何时空的 transformer 结构,在对多张连续视频帧进行深度估计时,能够显性得利用连续图像的几何和时序信息,提高了对视频进行深度估计的时序一致性。在多个公开数据集上,该论文的方法都取得了领先的效果。

关键词:极几何时空,多视角立体几何

论文链接:https://www.xxlong.site/ESTDepth/

杨睿刚:CVPR 仍是最强,要时刻保持对前沿技术的敏感性

而对于 CVPR 2021 的大会工作,杨睿刚博士也从程序主席的角度对广大学者们分享了自己的看法:

今年总共收到约 7,015 篇投稿,看起来投稿数的增长相比过去三年变缓了,但大家应该注意到论文接收数在稳定地增加。一方面我们很高兴 CVPR 的影响力和吸引力始终在 AI 领域保持领先,另一方面如此大量的投稿也对论文的评审工作提出了更高的要求,一大批新的领域主席(Area Chair)和审稿人加入我们,我们同时引入了自动化分类和匹配的手段来提升效率。

事实证明这些举措取得了很好的效果,同时非常感谢我们全部的 AC 和审稿人的配合,AC Triplet 的线上会议持续了整整一周,让我们在全球仍在与疫情斗争的形势下,仍然保质保量地完成了全部的工作。

谈到论文接收率,我作为程序主席常常会被问到我们是否会刻意设置一个特定的阈值。其实并没有,我们只是按照一个 CVPR 的一贯标准去看待每一篇论文是否值得被收录,而最终的接收率结果就比较稳定的收敛到了 25% 左右。

我认为我们对于评审标准和论文质量的坚持,让 CVPR 保持了在 AI 领域内的绝对地位。在 Guide2research 的榜单上,CVPR 是在计算机科学领域影响因子排名第一的顶级会议,即使与 Nature 和 Science 这样的顶级刊物放在一起,CVPR 也在全领域榜单中排入前五。因此我衷心地祝贺所有拿到 CVPR 录用通知的作者们,也鼓励那些在这次会议失之交臂的作者们。绝大多数评审的结果都是客观中肯的,我更愿意大家把评审意见当做改进自己工作的一面镜子,这样能让自己在这个领域拥有持续耕耘的动力。

Guide2research 计算机科学顶级会议影响力排名

谷歌学术影响力排名

最后想说一下我在企业里继续参与 CVPR、ICCV 这种学术顶会的另一个视角。我认为科技初创公司要时刻保持对前沿技术的敏感性,通过参会培养一支视野开阔、勇于创新的团队,对于嬴彻而言,一方面是继续夯实在量产方面的工程能力,另一方面,就是不断突破自动驾驶技术难题,而这些顶级会议,对于算法团队来说是一个不可多得的练兵机会。

嬴彻非常难得地提供了兼具商业技术创新和前沿技术探索的土壤。我们内部有一个名为 X Lab 的 Research 团队,汇聚了来自新加坡国立大学、浙江大学、北京大学等国内外知名高校的博士、博士后,他们与香港大学、香港中文大学、美国马里兰大学、清华大学等紧密合作,共同探索计算机视觉和机器人领域的前沿课题,为嬴彻轩辕自动驾驶系统的自主研发提供了强有力的支持,非常期待更多顶会玩家加入我们。

财经自媒体联盟

新浪首页 语音播报 相关新闻 返回顶部