2021 年全球人工智能市场发展现状分析计算机视觉和语音识别为技术层关键_

人工智能行业主要上市公司：目前国内人工智能行业的上市公司主要有百度百度 ( BAIDU ) 、腾讯 ( TCTZF ) 、阿里巴巴 ( BABA ) 、科大讯飞 ( 002230 ) 等。

本文核心数据：人工智能技术层重点分类 , 计算机视觉发展历程 , 计算机视觉市场规模 , 语音识别发展历程 , 语音识别市场规模

1、机器视觉和语音识别是主要市场

技术层是基于基础理论和数据之上，面向细分应用开发的技术。中游技术类企业具有技术生态圈、资金和人才三重壁垒，是人工智能产业的核心。相比较绝大多数上游和下游企业聚焦某一细分领域、技术层向产业链上下游扩展较为容易。

该层面包括算法理论 ( 机器学习 ) 、平台框架和应用技术 ( 计算机视觉、语音识别、自然语言处理 ) 。众多国际科技巨头和独角兽均在该层级开展广泛布局。近年来，我国技术层围统垂直领城重点研发，在计算机视觉、语音识别等领城技术成熟，国内头部企业脱颗而出，竞争优势明显。

1982 年马尔 ( David Marr ) 《视觉》 ( Marr，1982 ) 一书的问世，标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容，大体可以分为物体视觉 ( object vision ) 和空间视觉 ( spatial vision ) 二大部分。物体视觉在于对物体进行精细分类和鉴别，而空间视觉在于确定物体的位置和形状，为 " 动作 ( action ) " 服务。正像著名的认知心理学家 JJ.Gibson 所言，视觉的主要功能在于 " 适应外界环境，控制自身运动 "。适应外界环境和控制自身运动，是生物生存的需求，这些功能的实现需要靠物体视觉和空间视觉协调完成。

计算机视觉近 40 年的发展中，尽管人们提出了大量的理论和方法，但总体上说，计算机视觉经历了三个主要历程。即：马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。

语音识别的研究工作可以追溯到 20 世纪 50 年代。在 1952 年，AT&T 贝尔研究所的 Davis，Biddulph 和 Balashek 研究成功了世界上第一个语音识别系统 Audry 系统，可以识别 10 个英文数字发音。这个系统识别的是一个人说出的孤立数字，并且很大程度上依赖于每个数字中的元音的共振峰的测量。1956 年，在 RCA 实验室，Olson 和 Belar 研制了可以识别一个说话人的 10 个单音节的系统，它同样依赖于元音带的谱的测量。到 21 世纪之后，深度学习技术极大的促进了语音识别技术的进步，识别精度大大提高，应用得到广泛发展。

目前，语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。例如，现今流行的手机语音助手，就是将语音识别技术应用到智能手机中，能够实现人与手机的智能对话功能。其中包括美国苹果公司的 Siri 语音助手，智能 360 语音助手，百度语音助手等。

疫情之后不仅是工业领域，政务服务领域的语音机器人、传统行业企业的语音机器人也将有较高的市场增长空间。另外，NLP、AI 数字员工、RPA 的发展，一定程度上也将重塑 AI 应用场景。

2018 年，全球智能语音市场仍呈现快速增长趋势，市场规模为 142.1 亿美元，根据预测到 2024 年全球智能语音市场规模将达到 215 亿美元，其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。

AI 高层次学者是指入选 AI 2000 榜单的 2000 位人才，由于存在同一学者入选不同领域的现象，经过去重处理后，AI 高层次学者共计 1833 位。从国家角度看 AI 高层次学者分布，美国 A1 高层次学者的数量最多，有 1244 人次，占比 62.2%，超过总人数的一半以上，且是第二位国家数量的 6 倍以上。中国排在美国之后，位列第二，有 196 人次，占比 9.8%。德国位列第三，是欧洲学者数量最多的国家 ; 其余国家的学者数量均在 100 人次以下。