胡国平：以解决社会刚需为导向型认知智能系统的技术挑战、路线及机会_

文 / 胡国平，陈志刚，王士进，刘权，李鑫

摘要

基于科大讯飞多个规模化应用认知智能系统的成功研发实践，本文总结并论述了实用型认知智能系统构建的三方面建议，即优先考虑普适性、优先选择“纯文字型”技术路线，以及必须有效融合深度学习和专家知识两种方法，并给出了知识推理是认知智能系统进一步飞跃关键所在的预判，希望对其他以解决社会刚需为导向的认知智能系统构建工作有所助益。

关键词

认知智能；实用系统；普适性；纯文字型；深度学习；知识推理

0 引言

认知智能，通常指让机器掌握人类独有的语言和知识能力的一类人工智能技术，涵盖机器翻译、人机对话、知识推理、机器阅读理解、常识推理等具体任务，是人工智能的高阶阶段。与认知智能相对应的是感知智能，即模拟人类的听觉、视觉和触觉等感官能力的技术。

以解决社会刚需为导向型的认知智能系统，是认知智能技术面向经济主战场、国家重大需求，以及人民生命健康等战略方向发挥规模化真实价值的关键抓手，也是认知智能技术进展被亿万用户认识、使用和认可的关键形式。科大讯飞2014年大规模启动了认知智能技术研发攻关，2017年承建认知智能国家重点实验室，以解决社会刚需为导向，先后研发和推广了十多个大型认知智能系统并均取得实质性突破，包括在人机交互领域的人机对话、客服外呼等，在教育领域的口语评测、智能批改与个性化推荐等，在医疗领域的基层智医助理及合理用药审查等，以及在语言交流领域的语音翻译等，其中一些认知智能系统的技术达到甚至超越了一般人类专家的水平，且上述每个认知智能系统均实现了每年亿级人次规模的广泛应用。

本文基于科大讯飞多年研发实践，并结合认知智能技术发展动态与趋势，主要阐述实用型认知智能系统的主要挑战、技术路线和未来机会。

1 实用型认知智能系统需优先考虑普适

感知智能任务，从模式识别角度可以定义为有效提取和识别出“蕴含”在各种带噪、形变输入信号中的目标信息，故这一过程重点是去除噪声和信号建模，较为适合发挥深度神经网络强大的特征表示能力。因此，自2010年兴起深度学习方法后，在大数据和大算力的支撑下，感知智能技术取得迅猛发展，近年来语音合成、语音识别、人脸识别等均跨过实用门槛并在诸多任务上超越了人类自身水平，也实现了每天超十亿次技术调用的规模化落地应用。

与感知智能不同，认知智能任务则一般以纯文字或叠加其他模态信号为输入，同时必须调用较多的外部背景知识及常识，并通过逻辑推理才能最终完成理解等具体目标。例如，针对在自动电话防疫流调系统中真实用户所问的“我就是在汉口转了趟车，算吗？”这句话，系统需要准确理解“转了趟车”意味“到过”，同时还要掌握“汉口属于武汉”等常识，并结合新冠病毒传播的空间知识等以进行有效推理后才能正确回答出“算”。可见，输入文字本质上只是人类约定好的语义代号，认知智能任务的核心难度不仅在于输入的理解，更在于输入文字背后纷繁浩瀚知识的获取和运用。因此与感知智能直接对输入输出进行建模有所区别，认知智能的重点在输入之外的知识！

结合多年认知智能技术攻关和落地实践，我们认为，认知智能任务除了面临文字无穷组合表达的准确理解、纷繁浩瀚知识的获取及推理这两个在学术界已熟知的技术挑战外，以规模化应用落地解决社会刚需为导向的认知智能系统还有下面三个明确的额外挑战。

一是系统的正确率必须达到或超过专业认知水平，否则用户不愿用。认知智能系统“挑战”的都是人类通过多年学习才具备的专业能力，如果达不到一般行业专家水平，则难以解决现实问题，基本不可能实现规模化应用落地。这既是机器翻译直到5年前达到了大学英语6级水平后才得到了广泛应用的底层逻辑，也是科大讯飞的智医助理系统优先考虑在基层推广应用的原因。

二是系统必须具备很好的鲁棒性，否则用户不敢用。认知智能系统必须对用户认为合理的各种输入都能给出相对合理的输出，否则每一个低级错误都可能会导致用户对系统的迷惑和不信任以至于不敢用。然而，自然语言最大的特点就是灵活多样、可长可短，潜在输入空间巨大，因此一个实用的认知智能系统须尽可能有效、合理处理各种各样的输入，特别是针对低频长尾的例外情况。认知智能系统落地推广过程中也往往会有认真负责的用户或者是“好事之徒”，拿一些特殊的例子来“检验”认知智能系统，如当年苹果Siri被网民恶搞。

三是系统最好给出可解释性的推导路径说明，否则用户不好用。尤其是对于推导过程相对比较复杂的认知智能系统，应给出更多显式的中间结果，以便用户理解和接受。相比于感知智能而言，可解释性对认知智能系统的构建而言，更为必要，也更有价值。显式中间结果也有利于用户和系统之间实现人机耦合的有效互动。

综上，构建以解决社会刚需为导向的实用型认知智能系统，必须要充分考虑普适性，相对合理地控制语言理解的范畴和深度，以及输出结果的丰富细致程度，建议优先定义和实现“浅、粗”，但“全、准”的认知智能系统，并通过海量数据积累、精细算法建模和专家知识引入，推动认知智能系统达到一般人类专家水平，并实现有效应用落地，然后进一步在系统迭代过程中追求更深层次的语言理解和知识推理。某种意义上说，当年的互联网搜索引擎就是最浅、最粗、最全的处理自然语言的认知智能系统，也因此最先得到广泛应用。而面向海量文本信息的排序、评分、检错和审核等场景的认知智能系统，也是认知智能技术规模化落地的优先台阶。

2 实用型认知智能系统可优先选择“纯文字型”技术路线

人类独有的语言和知识能力是大约7万年前智人大脑认知革命的重要产物，是用来描述真实世界和精神世界的一种交流和记录的载体。人类要真正掌握语言和知识，强烈依赖对真实世界的体验。以Winograd Schema Challenge中的一个常识推理问题为例，“爸爸举不起他的儿子，因为他很重。请问谁重？”“爸爸举不起他的儿子，因为他很虚弱。请问谁虚弱？”上例中所有的文字实质上都是大家共识的记号而已，以“举”字为例，“举”的二进制编码仅为“BE D9”两个字节，存储不了其他信息。但人们学习了“举”这个字并和真实世界里“举”或“被举”的实践体验相关联，就都知道了“举”这个字所蕴含的信息，包括谁在上面，谁在下面，以及“举不起”意味着“上面的人重”或者“下面的人虚弱”这些知识。总之，人类学习知识所依靠的是书本上的文字学习、真实世界中的充分实践，以及有效的关联两者，此即学术上所称的Language Grounding问题，也是人类认知智能的基石所在。我们很难和一个先天盲人解释清楚“蓝色”和“绿色”的区别，就是因为他缺失了对现实颜色世界的真实感知。

学术界近几年出现了将各种感知信号与文本信息联合跨模态语义统一建模的研究热点，即直接建立各种感知信号与表征认知概念的“纯文字”符号之间的联系，从而让机器可以模拟人类强大的“三维空间+一维时间”的物理世界感知、认知和联想能力，这对人工智能的纵深发展有重要意义。但是，当前跨模态人工智能仍处于简单受限场景的验证阶段（如AI识图问答、文图生成等），以及理论设想探索阶段（如“具身智能”），预计在较长时间内都难见基于这类技术且可规模化应用的认知智能系统。

暂时解决不了Language Grounding这一认知智能的基石问题，是否就无法构建可规模化应用的认知智能系统？答案是否定的。实际上，很多实际应用的认知智能系统，如机器翻译、教育阅卷、客服外呼、医疗诊断、人机对话、知识问答、自动作文、自动摘要和舆情热点分析等，都采用“纯文字型”技术路线。之所以会广泛出现“纯文字型”认知智能技术路线这种情形，理由有如下三点。

一是人类的文字本身强大且丰富，足以描述几乎所有的语义和知识，纯文字世界是多模态物理和精神世界的一个大幅简化、相对完整且闭环自洽的描述体系，因此理论上可以相对确定性地构建“纯文字型”，但仍具备广泛真实应用价值的认知智能系统。系统最核心的语义理解和知识运用环节，可用纯文字描述进而被机器学习、理解和推理，整个过程不涉及真实世界的映射和感受。例如，机器可以正确回答上文中“举”相关的常识推理问题，是因为在海量文本语料中见过了大量类似“虚弱而举不起……”“没能举起最重的……”等文本，并做了纯文字层面的理解和推理。最近很火的ChatGPT也让大家充分感受到了纯文字层面的认知智能系统，可以实现的知识推理水平和潜力。

二是文字可以实现对语义与知识的锚定，绕过Language Grounding问题而直接在更高层次构建出另一层的语义知识的基石和坐标系。“纯文字型”认知智能系统通常用词语的上下文、语义槽类型和知识图谱节点等信息来“锚定”词汇语义，把巨大的文本空间映射为有限的语义空间，并在语义空间中建模或推理来解决各类认知任务。例如，在人机对话系统处理“明天首都天气如何？”时，直接用类似“#intent=weather，#city=北京，#date=TODAY+1”等填槽结果来表示理解和推理结果（如首都=>北京）。类似地，在如图1所示的医疗辅助诊断例子中，可将左边病历理解结果“锚定”到右边医疗知识图谱中绿色的疾病与症状节点（每个节点就是语义空间的一个离散点），再基于节点间的边所记录的“医学知识”进行推理，便可以诊断出匹配这些症状的疾病应为“心肌梗死”。

三是更复杂的多模态认知智能系统构建往往也绕不开以文字符号为核心中枢的支撑，如人机对话和教育阅卷等系统，虽然引入语音识别、语音合成、手势识别和图文识别等技术来实现多模态的输入输出，但其认知智能核心环节还是纯文字型的。这一观点可以从人类大脑的工作模式得到印证，脑科学认为，人脑的高级推理过程中需要用语言作为思考的媒介，即所谓的语言是思维的工具。

因此，实用型认知智能系统研发，建议优先选择“纯文字型”技术路线。科大讯飞在规划医疗认知方向时选择把医生看病时的“望闻问切”等各种多模态诊疗工作仍留给医生，集中精力先研发基于纯文字病历但覆盖超1000种疾病的基层智医助理系统，实现了基于主诉和现病史等文字的智能诊断、下一步问诊建议，以及用药合理性审查等。这一选择有效保障了我们在几年时间内研发出达到规模化实用水平的讯飞智医助理系统，目前该系统已常态化服务全国5.4万基层医生，累计提供了4.3亿次辅助诊疗建议，在提升了基层诊疗水平的同时，为我国分级诊疗落地贡献了人工智能的技术力量。

3 实用型认知智能系统需有效融合深度学习和专家知识

深度学习作为支撑起第三次人工智能浪潮的关键技术，不仅完全主导了感知智能的技术路线，对于认知智能也起到了重要助推作用。目前几乎所有的实用型认知智能系统都采用了深度神经网络来对整体或者局部进行建模，认知智能系统的构建强烈需要使用深度神经网络的原因有二。

一是无监督的实现全部词汇的语义表示建模。一个词汇的语义很大程度上决定于其上下文，因此基于既有的海量文本语料，采用Word Embedding、BERT预训练等方式无监督训练，可以有效训练得到所有词汇的较高精度语义向量表示，并将其作为进一步语义理解和推理的基础。

二是有监督的实现认知智能任务的端到端建模。在词语语义向量表示基础上，通过收集或者标注一定规模的有监督训练数据，即可基于深度神经网络实现认知智能任务的端到端建模，或者深度神经网络特定环节的调优。机器翻译、意图识别、要素抽取、闲聊对话、作文评分和机器阅读理解等认知智能任务，都广泛地借助了深度神经网络的强大建模能力，包括其Attention机制。

基于深度神经网络的认知智能技术研究，过去十年已经得到了广泛而充分的开展，显著提升了认知智能系统的平均性能水平，有效缓解了实用性认知智能系统构建所需克服的第一个难题——性能达标。但是，为了解决实用性系统鲁棒性和可解释性这两大难题，以及降低深度学习方法对有监督训练数据的依赖，实用性认知智能系统构建还需要特别重视专家知识的引入和融入。常见的知识融入方法包括以下三类。

其一，针对同一输入由深度学习系统和专家系统分别独立运行处理得出结果，并进一步互补融合的方法。深度学习系统泛化性强，专家系统可解决用户长尾输入问题且准确率高。此融合方法能有效降低深度学习系统给出完全不合理结果的概率，有效提升系统鲁棒性，例如在医疗认知、司法认知等行业认知智能系统往往都采取此方法。

其二，深度学习承担浅层理解，基于专家知识的规则推理系统承担复杂推理过程的分层融合方法，此方法能有效提升系统的可解释性。以司法量刑辅助为例，给定输入电子卷宗，底层深度学习技术可以完成案件量刑相关要素的自动抽取，而上层的规则推理系统基于抽取的量刑要素，通过基于法典法条实现的专家系统完成最后的量刑建议。

其三，将知识库完全融入到深度学习框架中的隐式融合方法。根据认知智能任务的样本数据，检索到相关知识，并将样本与知识通过合适方式融合生成新的训练数据，以完成最终的深度学习训练，有效缓解深度学习对有监督训练数据的依赖。当前，大模型框架下的Prompt Learning方式就可以将各类任务，甚至知识转到统一框架下完成训练。该方法在常识推理、阅读理解和类人答题等，有监督训练数据标注难度大的认知智能系统构建时比较常用。

综上所述，实用型认知智能系统的构建必须有效融合深度学习和专家知识的各自优势，提升系统的鲁棒性和可解释性，融合型技术路线既是实用型认知智能系统研发的主流技术路线，也是认知智能技术继续创新的前沿热点。

4 知识推理将是实用性认知智能系统进一步飞跃的关键所在

尽管基于上述技术路线的认知智能系统已实现了规模化应用，但仍存在许多技术高峰亟待广大同仁攻关和攀登。如人机交互领域的开放知识问答系统、互联网多源异构信息的深度理解分析系统，以及教育领域“机器能自己作答”的全学科类人答题系统等。这些复杂任务都具备一个共同的特征，即涉及海量知识和复杂推理。因此，人类知识的表示、获取和推理是此类任务的关键难点所在，也是认知智能系统能否进一步飞跃的关键所在。围绕涉及复杂知识的积累和推理应用，我们有以下预判供读者参考和指正。

一方面，显式知识图谱作为认知智能系统的基础设施，将在更多领域得到更大的重视和投入。互联网、医疗、教育和司法等领域将持续扩大知识图谱规模，并通过“有效联通”发挥出增量价值。但是，显式知识图谱如何高效运用，一直是关键堵点，即自然语言表述的复杂知识求解任务如何转化为对大型知识图谱的高效检索和复杂推理操作。例如，即使有了世界上所有城市信息的知识图谱，机器要回答“离赤道最近国家的首都是哪个城市？”也还是需要较多的定制工作而不具备普适的求解能力。因此，我们预判基于知识图谱的上下位、从属、因果和事理等特定关系标定的推理，或将成为技术创新热点，而基于图神经网络的大规模知识图谱推理也有望成为主流推理模式之一。显式知识图谱路线相对容易构建成稳定、可干预、可解释的认知智能系统，因此也成为实用性认知智能系统的首选技术路线。

另一方面，将人类社会已积累的海量原始文本资料进行简单整理后，直接提供给机器学习，以提升其认知智能，也是另外一条很有潜力的技术路径。在这方面，2022年11月OpenAI发布的ChatGPT通过Prompt Learning的创新模式，展现出了强大的精细语义理解、隐式知识推理，以及强大的语言生成能力，已经可以有效“记住”非常多的各类知识，同时也表现出了相对浅层的知识推理能力和自动生成“可解释性”推理过程。当然，基于纯深度神经网络的ChatGPT也不可避免地出现了一些比较离谱的错误。我们预判，针对一些特定受限领域的知识推理任务，沿着此技术路线，通过补充领域知识语料、精选训练语料和基于知识图谱等辅助生成更多训练语料，有望实现更深层次和更精准的复杂知识推理，并成为实用性认知智能系统的关键技术支撑之一。

让机器掌握人类独有的语言和知识能力，既任重而道远，也非常具有研究价值和战略意义！希望各位同行能一起携手，持续推动认知智能技术的不断进步，勇攀认知智能终极高峰；同时面向社会刚需，优先推进“纯文字型”认知智能系统的研发攻关和规模化落地，创造应用价值，造福亿万百姓。让机器能理解会思考！让认知智能顶天立地！

（参考文献略）