做AI研发,绕不开机器学习这条路,而在AI时代,机器学习绝非针对一套算法或数据闭门造车,只有融合不同领域中的基础知识和先验知识,形成一种综合性的机器认知,AI才能无限接近人的需求。
创投君为大家带来有关AI研发过程中的热门案例,尤其在自然语言处理和计算机视觉方面,更加工程化、系统化的思考方向,希望会带来一些的启发。
本文由混沌大学(ID:hundun-university)授权转载。
作者:邢波(卡耐基梅隆大学计算机科学学院教授,通用机器学习平台 Petuum 创始人)
这是一份关于AI热门应用的案例集,包含了难点、窍门以及最新的研发方向,非常珍贵而又接地气,值得你反复研读和收藏。
✦ 机器学习未来的发展路径和前景就是从模块出发,构建一个复杂系统。
——邢波
邢波,师从机器学习泰斗级学术大咖 Michael Jordan ,卡耐基梅隆大学机器学习和医疗中心主任,2017年机器学习学术水平排名世界第一。同时,他还是生物化学与计算机科学的双料博士,创立了通用机器学习平台Petuum。
翻跟头、倒着飞、倒着转圈……
想象一下,一个直升飞机驾驶员,他敢这么飞吗?
事实上,如今,最好的直升机驾驶员其实是计算机,依靠的就是机器学习。
那么,怎样写一个程序,让直升机这么飞?
我很好的朋友,加州伯克利大学的同学吴恩达博士,他的毕业论文就是用增强学习的算法,写出了飞行的程序。
他在模拟机上,不断随机模拟各种各样飞行的可能性、环境的可能性,用一个增强学习的程序,对模拟出来的环境和动作进行适应,然后不断评估、修正,并最终部署在真正的飞机上,实现神奇的特技动作。
其实,这个增强学习的算法,就是一个典型的机器学习的应用:有学习能力,可以根据大量的场景数据,不断修正方程里的参数,最后达到一个稳定的状态。
所以,从本质上讲,机器学习是传统编程的第二曲线,它是一个写动作的程序,而不是描述动作本身的程序。它是在学习一个方程,而这个方程的X和Y是一个函数、变量,并不是一个确定的值。
Tips
回看整个科学史,机器学习变革意义重大
牛顿定律,怎么发现的?靠的是“人肉智能”:开普勒和第谷积攒了很多行星运行的图表、数据,然后伽利略和牛顿分析以后,发现规律;
同样的道理,元素周期表是如何发现的?
16世纪、17世纪的时候,出现了对分子光谱的描述,某几个物理学家根据这些数据分析发现,氢族、氧族、硫族等都会有同样的光谱分布,从而发现了规律。
而现在,机器学习的出现,让数据分析变得非常高效,从而出现了非常多有价值的应用,计算引擎成了无名英雄。比如:自动驾驶汽车可以实现自我导航;通过遗传信号可以推断人类祖先的长相……
机器学习这么厉害,我在哪里能买到呢?很不幸,机器学习现在更像一套秘籍,买不到。
接下来,我用一些具体的例子,再详细分享一下它的难点、窍门。
案例集一:自然语言处理
人读书,会有两个基本动作,能读懂,还能讲出来,同理,自然语言处理也包含两大类工作:理解自然语言和生成自然语言。
理解自然语言
理解是怎么回事?背诵下来,是不是理解了呢?
因此,需要把理解划分为不同的具体任务,一旦具体以后,机器就可以找到切入点。
由浅入深,包括以下内容:
· 文本分类
从分好类、有标注的训练数据出发,采用不同算法,训练一个分类器。
举个例子,分析一个文章,假如“白宫”出现多次,就可以判断,文章是讲政治的。防垃圾邮件的软件,用的就是这个原理。
· 文本检索
这是Google等搜索引擎里的常用功能:通过关键字输入,输出根据相关度排序的结果,再高级点,还有个性化匹配。
举个例子,搜索苹果,结果可能是水果,或是手机。
如果搜索引擎对你一无所知,两个结果都可能靠谱。如果你是一位果农或者一位高科技白领,那么就能猜出你想要搜的东西。
也就是说,要实现个性化匹配,需要考虑你的生活习惯、行为特征、以及搜索场景。
· 语音识别
将声音信号转化为文本信号的技术,涉及隐马尔科夫链、递归神经网络等机器学习模型,智能音箱、Siri等,都属于这类的应用。
难点
在嘈杂,或是前后关联破碎的场景下,机器很难识别清晰,但是人可以,因为有常识、背景知识,比如人在信号很差的电话环境里,连蒙带猜,也能理解对方的话。因此,人和机器要有一些互补。
· 知识问答
几年前,IBM沃森在知识问答游戏Jeopardy里战胜了人,很轰动。
其实这个系统并不难,因为知识竞赛里的对话很简单,比如——
谁是美国的第一任总统?——乔治·华盛顿
所以,这个系统是一个纯工程,它跟人类智能不一样。
举个例子,比如问这样一个问题:中国不在大河边上的第二大城市是什么?
小学生很容易就能回答,但你去Google或者百度,却找不到答案。为什么?
不是知识库里没有内容,而是它听不懂你问的是什么,于是它就懵了!
所以,在这里面,有一些关键问题需要大家特别重视:
窍门
机器理解人的语言,相当有限,所以,如何提出更好的问题,非常关键。
大家天天在讲的问题,到底有没有价值?到底能不能体现出工程的进步、应用或者市场的需要?
· 标准测试
什么是高级的理解?标准测试,比如,大学的入学考试,托福、GRE等
为什么人工智能不去做这种测试?因为比较难,比如:
①得真正看懂测试的问题;
②训练的时候,不能人为输入规则,而是直接把教科书交给机器学习,让它自己把规则、定理、原理、作业题都完全看懂;
③最后自训练,吃透了以后去考试;
④算法要能够给学生解答这个答案的意思。
窍门
教育里最难的一点就是出题库,然后训练学生做题。如果有一个人工智能系统,既能出题,也可以跟学生一起做题,甚至还可以给他解释,就会有很多价值。
在这样的做题程序中,深度学习的方法已经被淘汰,其他的机器学习手段得分也不高。下一步,再怎么往上走?还不知道。
换句话说,既能回答问题,又能提问题,这是人工智能最弱的方面,也是一个未知的空间。
我们现在正在做这样的尝试,让机器自动的问一些问题,从而达到自训练或者训练用户的目的。
自然语言生成
这是人机界面中,主动来自机器的动作,是一个很好玩的题目,我重点介绍两个领域的应用:
· 机器翻译
人在做翻译的时候,通常先听完好几句话,理解后,再用另外一种语言说出来,但是,机器翻译的主要手段是对齐,把两个语句做一一对应,很机械。
· 机器对话
在对话系统中,也会有机器味。那么,什么才是有人味的对话呢?
一方面是对感情的把握,和对对方感情的理解;另一方面是对相关常识的引用和理解。
这在目前对话系统里,十分困难,因为没有一个很好的数学模型,对这些任务做清晰的定义。
小结:新研究方向
大数据即使再大,还是体现不出人类语言中不言而喻的内容,该怎么办?
目前,比较新的研究方向是把生成模型和人的背景知识,进行数学层面上严格和自洽的融合,把深度学习的技术和人类逻辑学的知识,结合在统一的数学模型里。
这样就可以把人的感情因素融入生成模型,从而让对话看上去更有人味。
案例集二:计算机视觉
计算机视觉是现在相当火爆的方向,大致可以分成两大类问题:图像感知与视觉推理。
图像感知
它包含的是一些比较原始和低级的任务,比如:
· 图像分割:
把不同的色块,从背景里面识别出来。
比如一个花花绿绿的人,机器看到的只是几块颜色。
· 语义分割:
把不同的色块重新整合起来,构成有完整单元含义的目标。
比如,人和车,会被分割在比较自洽的边界内部,然后做标注。行人检测、安防里的刷脸等,用的就是这个道理。
· 应用案例:
医疗图像识别
比如对X光、CT等做一个自动的诊断,实现精准医疗。
目前,在实践中,最大的困难不是对标准图片的识别,而是在自然工作环境下,对于自然图片内容的判断和理解。
比如,医疗影像中的噪音,误差,还有设备之间不同的标准,会造成很多算法的失灵,但这些问题很少被提及。
最近的一个有名的例子是,IBM沃森的癌症治疗软件,在美国最好的癌症研究所部署后,就遭遇了比较不幸的失败。所以,人工智能在医疗领域的应用,还是应该谨慎些。
· 智能监控
现在,很多场合都安装了摄像头,但应用时,却总是在“事后诸葛亮”的场景:发生案件后,调集警察,人力检查摄像头,发现线索,抓到犯人。
这不是最理想的情况,最好是案件发生的时候,就能够找出情况,短时间,就能收集大量信息。
比如,从几小时长度的航空展览录像中,自动剪辑出飞机的起飞、动作、降落等画面;将几小时的行车记录仪数据,自动抽取出几分钟不一样的片段,这都是机器学习比较擅长的。
视觉推理
同语言推理相似,视觉也可以进行推理。
举个例子,图中有人和帆板,那我们不单单能做标注,还可以猜想物体之间的关系,如这个人喜欢帆板,准备去海边运动。
人感觉这样的理解很简单,但对机器来说,非常复杂。
比如将物体识别出来,需要一套算法;然后把物体分类,又得需要一套算法;识别物体间的关系,又是一套算法……
但人类并不是用30个不同的大脑来发挥作用,我们就是一个人,一双眼睛就可以很清晰做理解。
窍门
所以,人工智能跟人的思路其实不太一样,它是一个高度模块化,然后边界也很局限的工作,需要严格的定义任务,分开来单独做训练和调试。
小结:新研究方向
计算机视觉2.0,模型结构自主学习
所谓视觉推理2.0指的是,一方面依靠图片内容,另一方面依靠从大数据以及背景环境里面,获得的先验知识。
当这些先验知识,进入图像识别的机制里后,机器对图像理解的水平就会提高很多,就不是一个很愚蠢的图像标注了。
实际上,图像标注是很假的功能,为什么需要机器去告诉人类,这个图里哪个是猫?哪个是狗?哪个是车?
人对这些东西都可以无视,但如果能够把图里面的内容和话外的内容搞清楚,更接近人的需求,这样的功能才会产生真正的价值。
比如下面这个图里,有一个女孩儿,穿着牛仔裤,拿着飞碟,后面在一个建筑物里,还站着一些人,最后推断,这可能是一个学校。
这是目前研究和研发很重要的方向,但很可惜,在公司或者媒体报道里,你很少见到类似的工作。
最后的最后
你需要深刻理解的未来AI发展路径
从模块出发,构建复杂系统
未来的AI应用大概会是这样的一个场景:
它会融合不同领域里面的很多基础知识或者先验知识,把不同的学习内容和算法整合起来。
对于实际的开发和生产环境,我们其实不是在谈某一个算法或是某一套数据,而是一个相当综合的体系。
现在,很多公司都面临着这样一个瓶颈:如果用封闭式的黑匣子来打造一个系统,它的延展能力很弱。一旦面对新任务,就会面临着开发周期的困境,或者进行部署的困境。
该怎么办?
我的建议是,机器学习未来路径和前景应该是:从模块出发,构建一个复杂系统。
这个复杂系统的方向不能是手工作坊的方法,从造一个小船变成造一个大船,而是要转变到更加工程化和科学化的方向——模块化和标准化。
同一个算法应该有标准的实现途径,同一个数据应该有单一的供应源进行处理方法。
只有这样做,你的AI研发,才能更稳健,更靠谱。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有