爱数智慧 CEO 张晴晴：对话式 AI 是人工智能的终极形态

编辑 | 李忠良

人工智能有两个重要的部分，数据与算法。作为一家人工智能数据服务提供商，爱数智慧在语音数据的采集与处理上有其独到的价值，在今年的 11 月 5 日与 6 日 AICon 全球人工智能与机器学习大会（北京站）2021 上，我们邀请了爱数智慧创始人兼 CEO 张晴晴来分享他们在人工智能方面的前沿研究。在正式分享前，我们采访了张晴晴，以下为采访整理，希望对你有所启发。

InfoQ：是否可以简述一下您在人工智能方面的研究历程？

张晴晴：我是在 2005 年开始接触人工智能，那个时候我在中科院声学所，当时的研究方向涉及了多语种的识别、对话式 AI 等。

不过那个时候，大陆中英文混合的语言现象较为少见，港台地区会比较多，我们常常参考一些港台地区、新加坡等文章来进行研究。

大约在 2010 年左右毕业，之后去了法国国家实验室，进行博士后研究，研究方向仍然是语音识别与人机交互。

当我博士后完成之后，辗转又回到中科院，那个时候也正好是互联网公司开始搞 AI 的那一波，也就在那个时候，我开始构建整个声学模型。

声学模型是将语音音频转成文字的过程，那个时候我们发现针对行业的数据的特征来使用数据非常重要。这个地方的一点点改变有可能带来相当可观的收益。

比如，有一个动作叫做时间的断点检测。你可以理解为“某段声音”是从什么时间开始、什么时间结束，这个是时间结构的问题。像这种切割问题，前后预留的静音时间的长短，对于你的模型训练的识别率有很大的影响。

但是当时这种专业的数据公司很少，所以在 2016 年的时候，我们这家公司就正式的挂牌成立了。我们主要做数据的定向采集、数据的处理、标签化，以及如何开发一个更高效的数据处理工具。

InfoQ：您将在 AICon 上分享对话式语料库建设，可以简单介绍一下对话式 AI 语料库是如何一步一步地完善起来的吗？

张晴晴：我们首先说个背景——人工智能的发展有两部分，一部分是数据，一部分是算法。目前业界最缺少数据，尤其是精准度良好、标签体系完善、合规的数据。判断一个数据是否良好，一般有五个方面。

首先是覆盖性；其次是维度；然后是数据的精准度，标签体系是不是比较精准的、数据是否与场景匹配等等；另外就是时效性，当前的数据和 10 年前的数据价值大有不同；最后是数据的合规性，国家对于数据的合规要求愈来愈高，数据的采集以及分类做得越合规，这些数据的价值也就越大。

从这几个维度出发，公司从成立之初，就开始储备对话式语料库。一方面尝试多种采集方式，在全国各地成立临时工作小组，招募采集人，获取合法授权。

另一方面对于采集的对话语音进行说话人、性别、地区、内容、主题等多维度的标签标注。

五年多的时间里，我们采集了十几万人的对话语音，积累了几万小时的对话数据。

我们构建了很多不同场景和行业的数据集。以智能座舱为例，无论是哪家车厂都会涉及到车机控制、导航、娱乐控制等，这里面有很多对话数据或者语料库，我们可以将这些共性抽取出来，形成我们的一个标准数据集。

这个抽取的规划与设计，全部由专家来完成，这其中包括制定规格、标签化入库、推广、产品推荐等。

当然这个过程中有很多挑战，例如，数据需要经过采集、清洗、质检等复杂标注流程；其次数据标注必须要有高效的标注工具，才能积累海量的数据库。

这就是我们整个语料库建设的过程。

InfoQ：就刚刚您提到的专家数据处理的这部分，是否可以讲述一下？

张晴晴：当我们在做一个命令控制的数据收集，例如打开空调或者关闭空调这样的指令。当这些声音收集之后，我们会进行分类。

比如做一些标签化的动作——哪些是在噪音环境下录制的？哪些是安静环境下录制的？哪些是语速快的？哪些是语速慢的？哪些带口音的？哪些是标准的？等等。

通过这样的标签体系化之后，可以将数据把它拆解到很多维度，当客户需要通用数据的时候，整套数据集都可以直接使用。

但是，如果当客户发现他们无法解决特定问题，例如解决“带口音”的识别问题，我们可以将带口音的标签体系抽取出来，为客户服务。

很多中小企业都需要高效的工具来处理数据，但是数据处理最好是在客户自己的系统内进行。这种情况下，我们的系统可以进行私有化部署。

这套系统主要是帮助客户快速地进行音频处理，形成标签，然后方便客户构建预测模型。

InfoQ：业界有很多语音识别系统，您是否与他们做的事儿一样？

张晴晴：我们系统的本质不是语音识别系统，它是一个智能化的数据标签系统，系统最终输出的结果是多维度的、精准的标签。

另外，与产业链下游最大的区别是——我们所有的智能模块都是和人机结合的。

例如，我们使用语音采集 App 采集了很多段聊天的音频，App 的 AI 模块会提醒音量是否过小了、是否离麦克风太近导致音频截辐了、是否说话人性别与登录的不一致了等等问题。

同时，也会检查说话人是否已经参与过录制、不可以重复参与对话等情况。

采集回来的合格音频，会在我们的标注平台 Annotator® 5.0 智能化标注平台上，通过 AI 模型切分成一个个小段落或单句，并提前识别好每个句子的内容，然后传递给人工标注员去检查句子内容中的错误。

人工标注员将句子改为相对正确后，AI 模块还会再次检查标注员修改内容的可信度。

在最后的验收阶段，验收员也会借助 AI 模块的辅助，来抽检最有可能存在错误的数据。

整个生产过程中，人工和 AI 在每一个环节交替工作、互相检查，直到生产出质量最好的数据。

InfoQ：关于您公司的未来发展以及重心，是否可以简单介绍一下？

张晴晴：从去年的疫情开始，很多行业客户开始进行数字化、信息化和智能化。我们重新定位了我们所服务的 5 大行业——智慧出行、智能社交、智慧金融、智能家居以及智能终端。

这些行业内的 IoT、客服等场景都存在大量的非结构化数据，不过这些行业数据具有一定的安全性和隐私性，而这就需要有专业的系统来处理。

这个系统需要进入客户自有的系统进行服务，因此这块的私有化部署是我们未来发展的重要方向。

再者，对于一些 AI 创业公司或者 AI 的开发者而言，我们希望能够为他们提供一套 SaaS 数据处理系统，他们可以用这个工具来做数据处理。我们将之称为 Office for AI，这套工具就像为 AI 而生的 Office 一样，所有需要进行数据处理的个体都可以到平台上来进行 AI 训练实验。

InfoQ：关于对话式 AI 未来的发展方向，您有什么看法？

张晴晴：对话式（Coversation）是人工智能的终极形态，突破对话式形态代表着强人工智能时代的到来。换句话来说，对话式 AI 的终局——人和机器可以以一种非常自然的方式进行交流。

之前的对话机器人，可能只会和用户进行一对一地对话或者进行简单的命令控制，比如命令音箱打开卧室的灯等。机器人再往前发展，能够对话的同时，一定是能够理解说话上下文，识别人的情感，并且对人的需求做出最佳的反应。比如夏天当我刚进到车内，我会说一声“好热呀”，车内的机器人立刻会把空调打开。

目前从数据行业看，行业提供的大部分人工智能数据都以朗读式训练数据为主，而人与人自然的对话式数据对训练对话式 AI 有更加关键的作用。要想把机器训练成人，使得机器可以像人一样能够理解语言，这就需要我们为机器注入知识图谱、中文、方言、外语等等，这确实有很大的难度，但这正是我们意义所在。

活动推荐

对话式 AI 在智能车载、智能家居、智能客服、智慧医疗、智能社交等场景中相继落地。从技术角度看，对话式 AI 涉及语音识别、自然语言理解和语音合成等技术，想要通过这些技术实现人和机器更自然的对话，面临着更大的难题。对话式口语常常会有语序颠倒，犹豫、迟疑产生的停顿，多人同时交流甚至出现语句打断、抢话、交叠音等复杂语音场景，这为 AI 建模带来了很大困难。

AICon 北京站上，张晴晴博士将分享《多语种对话式 AI 技术探索及语料库建设》，本次演讲内容将从声学角度进行非母语发音字典建模和混合双语声学建模的分享。

目前大会门票 9 折特惠中，购票立减 480 元，了解更多请联系票务小姐姐文柳：13269078023（电话同微信）

头条号入驻

InfoQ 有内容的技术社区媒体

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

爱数智慧 CEO 张晴晴：对话式 AI 是人工智能的终极形态 | AICon

头条号入驻

开源不会越来越落后！ Meta 官宣 Llama 3：最大 4000 亿参数，性能碾压一众闭源大模型

数据整合与 IT 自动化：工业企业的转型之路

容联云 QCon 全球软件大会分享：大模型引领“营销服”创新实践

财经自媒体联盟更多自媒体作者

热文排行榜