罗杰波、马毅、华刚等谈视觉研究那些事：是时候重新定义视觉了_

作者 | 蒋宝尚

编辑 | 丛末

视觉研究日益火爆，顶会论文是指明灯。那么作为顶会主席的研究员如何看待此领域的发展？5月14日上午，微软亚洲研究院创研论坛 CVPR 2020 论文分享会中的圆桌讨论环节邀请了五位担任过视觉领域顶会主席的嘉宾。

五位嘉宾

他们就论文如何选题、如何看待arXiv、线上会议能否取代线下参会发表了看法。其中加州大学伯克利分校教授马毅谈到：目前顶会领域规模太过庞大，视觉研究是时候重新定义自己了，定义方向重新回到初衷，做高质量，有突破的研究。除此之外，美国罗彻斯特大学教授罗杰波、Wormpex Al Research副总裁兼首席科学家华刚、加州大学圣地亚哥分校教授屠卓文、加州大学美熹德分校教授杨明玄也发表了看法。 1

论文选题不要凑热闹

大佬们谈笑风生

深度学习是计算机视觉的研究技术之一，深度学习在各领域大火的时候，也影响到了计算机视觉，做学者的要有自己的原则，罗杰波表示：不刷榜单，不凑热闹，明白学者在算力方面是比不过企业的，在选题的时候要找自己感兴趣的话题，找自己认为独特的点去做，不是说别人做什么你就做什么，写作时要明白写的东西是给别人看的，不是给你的导师，不是给学术带头人看的，要让评审看得出妙处。

杨明玄说道：同意做有感兴趣的事情，但是要量力而为，世界那么大，事情那么多，不要非做极度有挑战的事情。另外，越刁钻的老板（导师）越能提高你论文通过率，毕竟他们看的论文多、经验多。写作技能要慢慢提高，多看paper，将它们的框架写下来，可以把自己代入评审角色，看看自己的论文和别人有什么不一样，你自己会不会选你。经验都是积攒出来的，就像一眼就能够看出问题的老医师。

马毅补充到：写文章，做研究有两个阶段，先学习做学问的技巧，把一个事情讲清楚，把控住语言，最早的几篇文章是在训练自己的技巧，而不是做的研究有多么了不起。过了这个坎之后，可以随心所欲做自己想要做的研究，重点在于做研究而不是写文章。另外，不要把评审看的太重，一些重量级学者，例如Yann LeCun的论文也有被“砍掉”的经历，所以更重要的是你的问题有没有价值，第二你有没有把问题写清楚。

写作技巧有两个建议：第一找你欣赏人的文章去follow，学习怎么开头、怎么结尾、这么承前启后。第二点，把自己带入评审的角色，做自己最严厉的评审，把自己训练成最难说服自己的人，不要自我满足，不停的反驳自己一下。

华刚总结到：1、论文选题，切莫跟风，要做有兴趣，这样才能放入精力；2、训练自己的技巧，读一些paper，知道好paper长什么样子，语言不一定华丽，让一般的人读懂；3、明确和导师的关系：判断你的论文是否能接受，能增加你论文接受的几率。屠卓文最后补充到：写文章的原则是：帮人帮己，帮助自己考虑问题，但更重要的是别人怎么看你的文章，能不能帮助别人理解你的工作。并不是每一项工作都能达到很高的境界，在这过程更重要的是对得起自己的努力。

如何看待arXiv的文章？

arXiv 是一个收集物理学、数学、计算机科学与生物学论文预印本的网站，上面的文章未经同行评审，作者对文章多半保持严谨态度。但是也可以防止自己的想法在论文被收录前被别人剽窃（将预稿上传到arXiv 作为预收录）因此这就是个可以证明论文原创性（上传时间戳）的文档收录网站。那么，顶会应该如何看待arXiv ？

华刚表示：arXiv 总体上有着非常积极的一面，因为它能够让工作更快分享。但是问题在于：上面有大量的文章，实际上并没有经过同行审议，所以鱼龙混杂。所以在看文章的时候需要自己有判决力，对个人来说一些论文只会看看标题，看看摘要再决定是否读下去。

顶会如何看待arXiv这个问题，CVPR和ICCV都有自己的政策，投稿之前弄清楚规则就好。马毅表示：arXiv这个领域本身是物理和数学，它所对应的评审模式不是双盲。既然允许论文post在arXiv上面，那么顶会评审就不应该是双盲，因为这会造成许多混乱。

另外，它确实对领顶会审核带来很多工作，因为作为领域主席和程序主席往往会在“这篇文章是谁的idea”纠结。所以现在顶会的投稿政策还并不适应现在这种情况。顶会应该及时改变，不能装作看不到，可以向期刊一样的单盲评审。

杨明玄表示：arXiv的问题已经讲过很多次，但没有人能够去解决，目前是无解的状态，除非有顶级大佬站出来说‘我们现在改变主意了，我们以前讲错了，我们坚持的不是这样，大家重新来过呀’。单盲评审确实有点不公平，2002年NIPS 从单盲变成双盲的时候，有些学校的论文录取瞬间下降。

所以要求双盲却arXiv是伪君子的做法。

深度学习是否结合传统基于符号的方法？

在讨论完论文如何写、如何选题、如何看待arXiv之后，圆桌论坛也向如何克服深度学习依赖数据的问题发起了讨论。能否将传统基于符号的方法与深度学习结合起来从而增强鲁棒性？能否将这种融合的发展路线带入计算机视觉领域？杨明玄提到，现在的深度学习方法或许没有很强的鲁棒性，实验也不好做，但是总要有人做。

屠卓文表示：现在计算机视觉更多的是考虑CNN算法，当然RNN、Attention这些都在进来，但是这一套系列中视觉和语言还是不太一样。计算机视觉改变一两个pixel，不会改变太大的结果，但是在语言里改变一个字，那就是天壤之别。

所以，计算机视觉和语言在同属AI框架下，需要从各自的角度去考虑问题。最终的融合还是需要的，但是要明确视觉和语言确实有很多不一样的地方，如何考虑角度非常重要，现在这条路还在探索阶段。

罗杰波表示：视觉分为：识别、描述、推理。现在CNN解决了很多大部分识别问题，计算机视觉进化到了描述问题，下一步会进化到推理问题。现在已经有人将知识图谱和常识这些东西加入模型，从而尝试解决视觉系统或者AI系统到底是什么样子。

也即从知识层面入手解决问题。从计算机视觉的定义：从视觉信号里提取描述没提到只是做识别。计算机视觉的初心是进化到语义，这就需要将语言和视觉知识融合起来，这是不可避免的，也是计算机视觉必须进化的方向。

马毅表示，鲁棒性问题和现在深度模型拟合数据，做黑盒系统以及依赖数据标签有关。深度学习系统并不关心数据内在的描述表达，其模式只是input-output。数据导向的方法可能会解决一些问题，但仍然有缺陷。例如，深度学习虽然在识别领域有些进展，但是现在3D领域是最大的软肋，因为它对鲁棒、精度要求非常高。但是为什么需要真正的鲁棒性？马毅提到因为一些场景必须要求鲁棒，例如军事、医疗、无人机都是关乎人命的。

计算机视觉顶会规模发展有何看法？

计算机视觉领域将来如何发展，对计算机视觉会议规模的发展有何看法？

线上、线下参会有何优缺点？罗杰波表示，线上会议好处非常多，但是有个致命的缺点是：没有围观效应。Zoom此类的会议都是讲座性质的，在交流方面还差一些，缺少那种大家对‘海报’评论的氛围。所以他认为线上会议在短时间还不会取代线下会议。

华刚博士对罗教授的观点表示同意，他也对顶会会议规模发表了看法：其实每个研究都有一个核心，大家都围绕这个核心开展自己的工作，当大量的研究者挤进来的时候，必将会扩展新的方向。杨明玄教授也表示规模大、人数多非常好，但是conference和workshop方式还是不同，资深的人士都会去workshop，而会议吸引的更多是学生。

马毅教授表示他非常怀念他当学生的那段日子，那时候的视觉会议有两个特点，一个是小，即只有两三百人，另一个特点是主题非常新，能带给人非常多的启发，给年轻人非常多挑战。

马毅教授还谈到，对比现在视觉会议的情况，计算机视觉可能要重新定义自己了，领域发展壮大是好事情，但是从研究主题和研究社区可能要重新思考了，看看能否找到更激动人心的事情。

人数一多，从众心理就非常严重。现在一些研究者的角色更像网红，并不是在寻找真正的追求，但是寻找真正的突破才是做研究的初衷。

所以，不忘初心，正当时。