AI产业现状:深度学习并没有你想的那么强大

AI产业现状:深度学习并没有你想的那么强大
2019年04月10日 20:52 科技指南小赵

在经历了两次的起伏之后,人工智能终于迎来了第三次浪潮,不仅从学术圈跃入到了大众视野,并且已经渗透到人们生活的方方面面,“AI+”效应明显。然而,严格说来,目前的人工智能远未达到强人工智能阶段,即使在目前的弱人工智能阶段,也还远没有达到令人满意的程度。

2019年新年伊始,围绕国内人工智能产业生态发展,中国开源软件推进联盟主席陆首群教授举办了“授邀资深专家笔谈人工智能”大讨论,受邀专家认为国内AI产业发展主要面临应用、技术、开源、人才等四大问题。此前,雨本智库已经在陆教授的指导和鹏城实验室的支持下,对AI的应用落地现状做了一次系统性地梳理,本期重点梳理和讨论人工智能在技术上的现状和瓶颈。

图片来自Pixabay

一、在改变世界的道路上,AI起到的作用还不够大

AI与蒸汽机一样,都有机会极大地提高社会生产效率,而这也就是人们之所以看好AI技术的根本原因所在。然而,正如人工智能前两次热潮都以冷却降温为结局一样,这一次的人工智能热似乎也达不到人们的预期目标。

比如,就有研究报告显示,2017年中国AI创业公司获得的累计融资超过500亿元,但2017年中国AI商业落地100强创业公司累计产生的收入却不足100亿元,90%以上的AI企业亏损,绝大多数企业年营业收入不足两亿。另外,18年底,一份名叫“励讯新兴科技执行报告”的文件也显示,他们在对美国政府、医疗、保险、法律、科学、医疗和银行业等6个行业的1000名高管进行调查之后,发现88%的高管认为,人工智能(AI)和机器学习(ML)会让他们的企业更具竞争力,受访高管们清楚这些技术的价值,但只有56%的企业使用了机器学习或人工智能,此外,只有18%的受访者计划增加对ML和AI技术的投资。

二、AI技术,依然不够成熟

我们不能说人工智能只有达到强人工智能水平才能彻底改变人们生活的方方面面。但不可否认的是目前的人工智能依旧“愚笨”到令人想放弃。比如你跟智能音箱聊天,每次都需要先说唤醒词,人与人之间的聊天哪有这么不方便的?人工智能想要真正实用化,依然还有很多技术上的难题需要解决。由于深度学习为目前人工智能领域最有影响的技术,这里就先来看看深度学习的技术瓶颈:

1、需要海量的数据

深度学习利用卷积神经网络(简称CNN)与递归神经网络(简称RNN)等,通过数据训练,并利用反向传播算法实现“学习”。但也正由于是训练出来的,深度学习AI的技术进步往往需要大量数据而且还是标记数据来喂养。

图片

来自Pixabay

实际上,这一波人工智能热潮之所以能够兴起,一个重要的原因就是随着互联网在近几十年内的迅猛发展,已经使得部分互联网公司积累了海量的数据。而这也是目前研究人工智能的领头羊基本上都是如谷歌、脸谱、百度这样的互联网巨头的原因所在。

然而,为了发展更加智慧的人工智能,仅仅靠互联网公司所掌握的数据也是不够的,还是不够大,因此我们可能还需要制造、能源等其他传统领域的数据。

理想状态下,我们应该建立一个可以不断从各个领域汇集数据的统一大数据库,但现实我们却发现数据往往都是割裂的,数据形成了一个一个的孤岛,甚至在某些大公司内部,不同的部门数据也不能互相沟通,这是我们熟知的一些困境。

而且,单纯的有数据可能还不行,要想取得好的训练效果,你可能还需要对数据做标记。

而标注的成本也非常高,往往一个训练集的造价要达到数万、十万甚至百万级。也正是因为造价过高,有时可以预见某个标注改动可以提升精度,但是可能因为返工成本过高而被否掉,从而又降低了模型效果。

巧妇难为无米之炊,这个困境就会导致很多人工智能非常优秀的算法很难加以应用。而如果在数据不足的条件下强加利用,则可能会产生AI偏见等问题。

一般而言,深度学习训练的时间少则数小时,多者数月。因此,虽然数据越多算法越智能,但数据过多却也不是好事,这会导致训练效率的下降。

当然,行业也有一些方法可以减少对数据的依赖,比如迁移学习、少样本学习、无监督学习和弱监督学习等等,但是到目前为止,它们的性能还没法与监督学习相比。

2、可解释性(透明度)不够

基于深度学习的人工智能是训练出来的,而不是编程出来的,它的优点是端到端学习,输入数据,输出目标结果。虽然近几年基于深度学习的人工智能已经取得了突飞猛进的技术进步,比如图片识别率甚至已经可以超越人类了。但由于其中间推理过程的不可解释性和不透明性,深度学习的普及应用却是个问题。

图片来源:Pixabay

深度学习的“黑箱”问题根源在于它的基本架构,深度学习底层由多层神经网络构成,这是对人脑的一种粗糙演绎,因为我们仍未充分掌握人脑的运作原理,所以,我们对同样极为复杂的深度学习也无法作出合理的解释。

当然,你可以简单地说只关心结果不关心过程。但实际上,总有那么一些较真儿的人,而且还尽都是些金主。比如金融领域以及政府机构等。

实际上,金融、医疗等行业都对神经网络垂涎三尺,但目前都被限制使用,因为他们无法向监管机构充分解释神经网络的运作原理。“若只是欺诈检测和推荐引擎,你还可以侥幸过关。但在将机器学习投入风险评估等领域的过程中,这则是最大的一个障碍,这些领域受到严格的监管。”某行业从业者如此表示。

监管部门的观点一般是,如果没有可解释性,便无法对系统的能力作出一个客观的评价,无法预知可能存在的风险,并加以防范。实际上,这些隐藏着的不足可能需要真正出现事故之后才能被人发现,而此时,代价则是巨大的。

因此,在医疗等领域,AI更多就只能充当人类的“助手”,而不能得到普遍的应用。

3、机器学习模型的“通用性”不够

与人类的学习方式不同,人工智能模型很难将其学习到的经验举一反三。

比如深度神经网络在基准数据集上表现很好,但在数据集之外的真实世界图像上,效果就差强人意了。比如一个用ImageNet训练来识别沙发的深度神经网络,如果沙发摆放角度特殊一点,系统就就认不出来了。这是因为,有些角度在ImageNet数据集里很少见。

因此,即使在相似度很高的场景中,比如同样都是人脸识别,由于闸机或者摄像头等具体场景的细微差别,企业也可能需要再次投入资源来训练新的模型。

“目前很多公司打造的AI系统或软硬件近似于雕琢工艺品,而不是能够进行量产,复制,和普及的高度鲁棒和易用的工业产品。”CMU机器学习系副主任邢波教授曾如此表示,他认为如果AI是一个产业的话,那么我们目前还处在AI的前工业化时代,而这会导致AI实现的成本高昂,阻碍技术的应用落地。

为此,纽约大学心理学教授,曾任Uber AI实验室负责人的马库斯(Gary Marcus)甚至在2018年初发文表示,仅仅依靠深度学习不可能造出通用人工智能。

(注:通用人工智能,即一套可以在广泛目标和环境中采取智能行为的系统。)

4、深度学习还不能区分因果关系

另外,马库斯还提到,目前深度学习系统,学习的是输入和输出之间复杂的相关性,而不是因果关系。

因此,一个深度学习系统可以很容易的学到:小孩的身高和词汇量是相互关联的。但并不掌握身高和词汇量之间的因果关系,其实我们很容易知道,长高并不见得增加词汇量,增加词汇量也不会让你长高。

而且值得一提的是,这种概率论得到的答案其实只是一个近似,我们并不能完全相信其答案。

为此,就连人工智能三巨头之一的Yann LeCun教授也说是时候放弃概率论了,因果关系才是理解世界的基石。

总之,深度学习依然存在瓶颈,但目前它要发挥的作用所需要的前置条件太过苛刻等等。如果要真正达到理想中的人工智能,这些瓶颈还有待于人们的进一步突破。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部