快手王华彦:追求极致效率,开发下一代计算机视觉算法

快手王华彦:追求极致效率,开发下一代计算机视觉算法
2020年04月03日 13:40 CSDN

【导读】创立八年,短视频平台快手目前已经有超过两亿人在每天登陆使用,每天还有超过 1500 万条短视频被制作和上传,每天的累计观看数更是达到 150 亿。

拥有如此庞大的用户数,快手用户涵盖中国社会的各个地域和阶层,生产丰富的视频内容。这些用户拍摄的视频就像一个社会博物馆,几十年后许多生活方式和民俗都会随着社会变迁而消失,但它们都以最原始的形式保存在快手用户视频里,其覆盖之广泛或许连任何官方或专业的影像资料都无法替代。

有媒体用这样一句话来概括快手平台的作用:在快手上遇见最广袤的中国。几年前在新闻稿上读到这句话,让王华彦至今印象深刻。

提高两种 AI 算法效率服务快手“老铁”

毫无疑问,王华彦认可快手作为短视频平台传递出的这种价值理念,如今作为快手位于硅谷的 Y-tech 实验室负责人,他告诉 AI科技大本营(ID:rgznai100),这也是其加入快手的其中一个主要原因。

价值理念的匹配固然重要,但自己的研究兴趣与快手在同一技术方向上的重视,让这种双向碰撞会一拍即合。2018 年 7 月,王华彦在其斯坦福师兄、现快手 Y-tech 负责人郑文的牵线下正式加入。

王华彦,现快手 Y-tech 硅谷实验室负责人。他是斯坦福大学计算机科学博士,师从概率图模型(graphical models)领域的顶尖学者和奠基人之一的 Daphne Koller 教授研究计算机视觉。就读斯坦福大学人工智能实验室期间,为复杂化的概率图模型开发了高效的推理算法。他的研究曾登上在ACM 通讯(CACM)的研究亮点(research highlights),并在多个顶级会议上发表。王华彦本科和硕士阶段就读于北京大学,师从査红彬教授,也曾在香港科技大学杨强教授的实验室访学。

在此之前,无论是在斯坦福读博,还是后来在硅谷做通用人工智能的公司 Vicarious AI 担任高级研究员,王华彦的主要专注点一直是如何从各种角度提高 AI 算法的效率。他进一步解释,**效率包含两方面:一是学习阶段利用数据的效率,即利用更丰富的模型先验结构从更少的数据学到更多知识,二是推理阶段的计算效率。**围绕这两大方向,他的一项研究成果入选了 2013 年 ACM 通讯(CACM)的研究亮点(research highlights)。

在 Vicarious AI,他和团队的研究工作继续围绕提高效率这一目标,重点关注数据效率和泛化(generalization)能力,他们发现,在特定场景下高度结构化的模型能够用几百分之一的训练数据就超过业内最强的卷积神经网络(CNN)的泛化能力。这一研究最终发表在 2017 年的《科学》(Science)杂志。

快手的核心技术需求与王华彦的研究方向高度契合。为了辅助用户进行更多内容生产,快手在业务中使用了大量 AI 技术进行赋能,比如美妆装饰特效、跳舞机游戏、控雨特效、AR 特效、染发特效、背景替换和魔法表情等。这些特效用到了人脸关键点、人体关键点识别、手势识别、视觉惯性里程计、头发分割、背景分割等 AI 技术。

这些技术应用背后,需要通过标注大量图像,作为数据集进行监督学习,训练出模型。但这种方式并不十分有效,相比人类只需要少量样本的学习方式而言,效率很低。

同时,快手的“老铁”们普遍使用的大众型手机对 AI 算法的推理计算效率提出了前所未有的高要求,这迫使他们快速开发并在大众移动设备上部署最先进的 AI 算法,而目前业界开发 AI 算法的主要瓶颈在于数据,如果能大幅提高数据利用效率就能提高开发效率。

问题在于,快手具体如何提高利用数据的效率以及推理计算效率?

追求极致效率:开发下一代计算机视觉算法

坐落在斯坦福校园旁边的快手 Y-tech 硅谷实验室,其研究大方向是追求 AI 算法的极致效率,王华彦称,他们在方法上主要专注于利用更加结构化的模型以及结构化的视觉信息表示,充分利用先验知识,提高算法效率,从而落地到内容理解、编解码和内容生产等不同的场景。

将这些模型应用部署到端上,主要的挑战来自任务的多样性以及移动计算设备及其底层软硬件的多样性。他指出,将一般性的普适性方法应用到不同的场景中需要适应它们各自的性质和需求。

而所谓的追求“极致效率”,在研究方面的体现就是开发下一代计算机视觉算法。

目前业界和学界基于卷积神经网络(CNN)和大数据的计算机视觉方法有比较明显的局限性,王华彦举例称,人的视觉系统只需要很少的样本就能学习一个概念,而 CNN 需要非常多的样本。这是因为人在看到一个物体的时候,对于它的形状、轮廓、纹理、颜色等属性有一个结构化的(structural)、可拆分的(compositional)表示方式,而 CNN 在“看到”一个物体的时候,这些不同方面的属性是被混合在一个“黑箱子”里面,造成了 CNN 在学习概念的时候利用样本的效率很低,因为它无法将不同的样本以比较合理的方式联系起来。

值得注意的是,在深度学习兴起之前,早期的计算机视觉方法更多的是采用这种结构化的表示方式,但并没有取得深度学习方法这样成功以及业界的广泛应用。从近些年的发展来看,王华彦认为,越来越丰富的结构化信息表示方式正在被引入到深度学习方法中,但离能够从很少的数据中高效率学习的“下一代计算机视觉算法”还有非常大的距离。

今日福利:「AI大师课」是CSDN发起的“百万人学AI”倡议下的重要组成部分,4月份AI大师课以线上技术峰会的形式推出,来自微软、硅谷TigerGraph、北邮等产学界大咖就图计算+机器学习,语音技术、新基建+AI、AI+医疗等主题展开分享。

扫描下方二维码免费报名〜

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部