百度知识图谱技术及应用

百度知识图谱技术及应用
2021年03月18日 21:00 DataFunTalk

分享嘉宾:王泉博士 百度 资深研发工程师

编辑整理:付一韬

出品平台:DataFunTalk

导读:知识图谱是让机器像人类一样理解客观世界的基石。本次报告首先简要介绍知识图谱在百度的位置及整体的发展概况。接下来从通用知识图谱和行业知识图谱两个分支重点介绍百度知识图谱技术及应用的最新进展,另外会介绍两个特殊的知识图谱——事件图谱和视频理解图谱。最后介绍百度知识图谱在技术和数据开放方面的工作。

我们先通过一个非常直观的例子看一下,为什么知识是机器理解世界的一个重要基础。对于上面这张图片,如果机器完全没有任何的背景知识,它其实是很难去理解这张图片背后所表达的含义。但是因为我们人类在智能发展的过程中,是不断的积累知识并去运用知识的,所以说其实如果我们有丰富的背景知识,人类是很容易能够看懂这张图片,它可能描述出刘备、关羽和张飞桃园三结义这样的一个故事。所以从这个直观的例子我们就能很直接的理解到,知识是能够让机器像我们人类一样去理解客观世界的一个重要基础。

上图是知识图谱的一个基本结构。直观来说,知识图谱就是以图的形式来展示知识,节点用来描述客观世界中一些实体或者概念,边用来描述实体和实体之间的关系或者实体的一些属性。通过这种结构化的知识表示形式,知识图谱将存在于客观世界的丰富知识表达成机器能够处理和理解的形式,从而使机器能够像人类一样去认知世界并且做出合理的决策,进而为人类提供更加广泛的智能化服务。

01

百度知识图谱

上图回顾了百度知识图谱在过去几年的主要工作和发展历程。百度知识图谱可以说是源于搜索,服务搜索,同时随着自身技术的积累和深化,我们用知识图谱技术广泛赋能搜索之外的业务和产品线。

在图谱构建和应用方面,我们大概经历了四个比较大的阶段。第一阶段是2013年以前的Pre-KG阶段,这个阶段实际上也是学术界和业界知识图谱技术发展的一个初期阶段。当时我们以定制化的模式来生产结构化数据,并应用于百度搜索的知心产品中。第二个阶段是2014到2015年,这是我们知识图谱方法论和架构逐渐成型的一个阶段。在这个阶段,我们建立了面向垂类知识图谱构建的架构机制,并且将领域图谱应用于百度搜索的推荐、阿拉丁、智能摘要以及百度的第一代智能助理度秘等重要产品中。第三个阶段是2016到2017年。在这个阶段,百度逐渐深化建设通用知识图谱相关的架构、算法和机制。技术聚焦的重点在多领域打通、平台化、外包化的图谱构建,并深化建设了一系列特色的领域知识图谱,比如汉语知识图谱、娱乐知识图谱等。在应用落地方面主要有智能搜索问答以及百度信息流产品中基于知识兴趣点的内容推荐。第四个阶段是近两年,我们逐渐将知识图谱的能力释放出去,并深入探索了一些领域内相对前瞻的问题。这一阶段我们技术建设的重点在多元图谱的异构互联,图谱的主动收录与自学习,多媒体知识、复杂知识以及行业知识的理解构建。应用落地上除了继续在百度的搜索和信息流产品深化支持,还在法律、客服、医疗、金融等行业领域取得了一些突破和进展。值得说明的是我们在今年发布了百度知识中台,实现了规模化的产业落地。截止目前我们在通用和行业图谱数据建设层面累积了50亿实体和5500亿事实,日均响应400亿次请求,知识图谱的服务规模增长了千倍。

这里我们总结一下百度知识图谱的覆盖类目和规模。百度知识图谱覆盖十亿级实体,千亿级事实,涉及类目40多个,是最大规模的中文知识图谱,覆盖人物、影视、音乐、文学、商品、餐饮、旅游、出行等垂类。对于行业知识图谱,我们也有丰富的积累和应用。

接下来我们主要介绍百度知识图谱近两年最新的一些技术和应用情况。

02

知识图谱技术及应用

前面讲过,随着百度知识图谱的发展,近两年我们技术建设的重点在多元图谱的异构互联,也就是从通用知识图谱出发,逐步去考虑一些更复杂的知识,比如从简单的事实拓展到复杂的事件,同时我们也会考虑一些多媒体、跨媒体的知识。此外,在行业知识方面,我们重点面向医疗、法律、金融、风控等强专业性领域,去构建一站式行业知识图谱的构建、计算和应用平台。

1. 通用知识图谱

接下来先介绍最基础的通用知识图谱,也就是开放域海量数据知识图谱的构建和应用。

面向互联网的海量开放信息,我们研发了一套基于主动学习的大规模知识图谱构建方法,主要包括无标签大数据开放知识挖掘、数据驱动的本体自动构建,以及基于多源数据的知识整合。基于这样一系列技术,我们把知识图谱扩大了几个数量级,显著提高了知识图谱的覆盖率和构建效率。

接下来针对三个技术模块进行详细展开。

① 关键技术:开放知识挖掘

首先介绍通用知识图谱构建的第一个关键技术——开放知识挖掘。为了实现大规模开放领域的信息抽取,我们基于多维数据分析和语言理解的技术自动获取知识挖掘模板,并通过不断迭代获取新模板、挖掘新知识。另一方面通过远监督的方式自动构建大规模的训练语料,为实体关系判定模型提供高质量的训练数据。

基于结构自注意力网络的富实体篇章级关系判定

这里介绍一个我们最新的且相对偏前瞻的工作。对于实体关系判定,早期我们的做法是给定一个句子,再标注两个实体之后,去判断这两个实体之间是怎样的关系。随着我们研究和应用的深入,我们可能会去处理一些更复杂的输入形式,比如在篇章级文本以及非常丰富的实体场景之下做关系的判定。这个是我们最新的一个工作。我们考虑到实体提及之间可能存在丰富的语义关联,比如最简单的共指,这些语义关联对我们进行实体之间关系判定是非常具有指导意义的。所以我们设计了一种结构自注意力机制去建模实体提及之间的语义关联,从而提升关系判定的准确率。我们这个最新的工作被AAAI 2021录取。

② 关键技术:知识自学习

通用知识图谱构建的另一关键技术是知识的自学习。我们建立了一套自顶向下和自底向上相结合的图谱构建驱动模式。所谓自顶向下是一直以来图谱构建的传统模式,也就是说它的schema是全人工构建,非常的准确,专业,且完备性也比较高。这种模式适合于知识图谱建设初期所面临的头部垂类数据的构建,它要求领域的专业知识,成本较高,对于中长尾的知识收录是比较困难的。而自底向上模式则是将知识体系的自动发现和开放知识挖掘相结合,从海量数据中自动学习元知识,它比较适用于通用域下的大规模图谱构建。

在百度是通过自底向上和自顶向下两者相结合的方式,去做知识体系的自学习。通过这种方式,我们知识图谱的schema规模增长了30倍,基于搜索需求的事实覆盖率提升了两倍。

③ 关键技术:基于多源数据的知识融合

通用知识图谱构建最后一个关键技术是基于多源数据的知识整合。面对开放领域数十亿规模的实体,我们通过基于语义空间变换的实体消歧和实体归一的技术,实现多源开放域大规模实体的归一融合,从而去解决知识表示形式多样、关联融合困难的问题。

④ 关键技术:知识图谱问答

百度知识图谱最重要的应用之一是搜索问答,针对这个应用我们有一个非常关键的技术,知识图谱问答。实际上,用户在搜索引擎上输入的查询问题类型非常多样,表达形式也是千变万化。有些问题是直接围绕实体进行相关的查询,比如“张柏芝的身高”,“魔兽世界上映时间”等等。有些问题的答案是存在于网页或者知识库里面,比如 “形容不会说话的成语”。还有一些问题可能需要进行更进一步的推理和计算才能得到,比如“Zippo能否带上飞机”,“谢霆锋的儿子的妈妈的身高”等等。这些问题比较长尾,但是它确实也存在。为了同时满足这些不同问题类型,我们开发了多方案融合的知识图谱问答技术。

具体来说,对于那些直接围绕实体相关的查询,我们会用一些基于知识库问答(KBQA)的技术进行处理,包括自动挖掘模板进行语义解析,进行文法和语义端到端子图匹配等等。对于答案存在于网页或知识库里面的问题,我们采用IRQA的方式,使用阅读理解的方式从现有网页里自动挖掘答案。最后对于需要进行推理计算的问题,我们基于动态函数计算、规则逻辑推理等方式进行处理。也就是说我们针对不同问题类型,研发适用的问答技术方案。

⑤ 知识增强的机器阅读理解

这里再给大家介绍一个我们在机器阅读理解方向相对偏前瞻性的工作,知识增强的机器阅读理解。

简单介绍一下机器阅读理解的任务形式。所谓机器阅读理解,即给定一个问题或查询(question或query),比如“人在囧途是谁的代表作?”,同时给定相应的段落(passage或paragraph),在段落中找到问题的答案。

传统基于文本的阅读理解模型,能够捕捉到答案类型和一些局部的模式,但是对于比较难的问题,尤其是当段落中包含多个相同类型的候选答案时,仍然容易犯错。比如在上图例子里,给定段落“李卫的扮演者徐峥,他的代表作品:泰囧、港囧、疯狂的石头、人在囧途”,提问“人在囧途是谁的代表作?”,如果仅仅基于文本表示,模型很可能会给出错误答案“李卫”。但如果能提供一些背景知识,比如知道徐峥是演员、毕业于哪儿、他的一些代表作等等,是能够很快判断出答案是“徐峥”而不是“李卫”。所以,我们将图谱里面的知识用起来,辅助机器能够更好地做阅读理解任务。

上图展示了我们在知识增强的机器阅读理解任务上做的相关的一些工作,基本思想都是将知识的表示和文本的表示进行融合后得到一个知识增强的文本表示,然后去更好地做机器阅读理解。实验表明在大部分场景,尤其是知识密集的医疗、法律等行业,直接将知识用起来增强文本理解的任务是非常有效的。

⑥ 关键技术:知识计算与推理

在我们的搜索引擎中还会面临一些查询,需要进一步知识计算和推理。比如当用户输入“zippo可以带上飞机吗”,智能搜索引擎可以根据“打火机不可以带上飞机”和“zippo是打火机”这两条知识,直接推断出“zippo不能带上飞机“并告诉用户。

⑦ 知识图谱应用—智能搜索

接下来介绍知识图谱在百度各个核心业务线的应用情况。智能搜索是我们最大最重要的应用,知识图谱最开始起源于搜索,也一直服务于搜索。截止到目前,百度搜索首位满足率已经达到58%,这背后是基于百度最新人工智能技术的推动,其中相当大的一部分是由知识图谱提供的AI能力。基于知识图谱,直接满足用户搜索需求,目前日满足上百亿的检索请求,其中包括各种知识图谱形态的问答卡片,以及对实体的各个维度进行信息聚合展示的卡片。此外还会基于图谱中的实体语义标签或者关系来进行推荐,搜索中用户的延展知识需求也能被极大地激发。

⑧ 知识图谱应用—智能推荐

知识图谱的另一大应用场景是信息流推荐。基于知识图谱的语义关联,我们构建了大规模关注点兴趣图谱,把文章背后蕴含的内容模型通过兴趣点图谱关联起来,为智能推荐提供更具知识关联的特性,这样分发效率会得到一个大幅度的提升。

⑨ 知识图谱应用—对话系统

知识图谱相关技术也用在对话系统中。过去一年小度智能音箱在用户规模上继续保持高速增长,在语音对话系统DuerOS中,知识图谱提供信息满足类的检索服务,实现10大类目超过100类能力覆盖,覆盖40%+的信息满足需求。

⑩ 知识图谱应用—汉语知识图谱

另外,一个比较有特色的图谱应用是汉语知识图谱,我们构造了一个多层次细粒度的汉语知识库,可以专门解决与汉语相关的查询,提供智能化的解析、推理、计算等等。

2. 事件图谱

上面已经介绍了通用知识图谱的构建以及应用。接下来介绍我们怎么从通用知识图谱中简单的事实拓展到一些更复杂的知识,最直接的就是事件知识。

回到第一张图,实际上事件是比事实更加符合人类对客观世界的理解。比如看到上面这张图,如果机器是在一个完全没有知识或者弱知识的状态下,它会认识图中有三个人、有酒、有树等等。如果再进一步,机器有了一些实体的知识和实体的关联,它会知道三个人代表了刘备、关羽、张飞,树被识别出桃树等等。如果更进一步,让机器拥有更高级、更复杂的知识,比如事件知识,那么它可以知道这张图片描述了:东汉末年,刘备、关羽、张飞在桃园三结义的事件,其实这更符合人类对客观世界的理解。为此,我们构建了这样一个事件图谱。

所谓事件是指在特定时间、空间下,由一个或多个角色(事件主体)参与,围绕某个主题开展的一系列活动。

所谓事件图谱是包含事件、事件属性、事件关联关系的,以事件为基本单位的知识网络。

事件图谱和实体图谱之间的差异主要体现在实体图谱描述实体属性和实体之间的关系,它基本上是静态的,而事件图谱则描述客观世界的动态变化,并且侧重多个实体之间的动作。如果实体的属性或者关系发生了变化,那么就是一个事件发生了。

在任意时刻,一个事件可以映射到实体图谱上的一个子图,因为事件有参与的角色,也就是事件主体,而事件主体可以映射到实体图谱上的实体,这样就建立了事件图谱和实体图谱之间的关联,两者之间可以进行相互推断。

① 事件图谱:对动态的客观世界建模

这里展示了事件图谱的基本结构。首先是本体层,它可以类比实体图谱里面的schema。除了本体层还有一个事件层,它主要刻画事件与事件之间的关系。接下来还有一个事件论元层,所谓论元是指事件里面参与的角色,那么在论元层就可以和实体图谱进行关联。

② 事件图谱技术概览

上图展示了百度事件图谱的技术全景,包括从互联网数据中挖掘热点事件、构建事件图谱,基于事件图谱进行推理计算及搜索、推荐等应用。我们研发了包含事件检测、事件抽取、事件知识表示、事件关系挖掘等核心技术的全流程事件图谱构建方案。目前,我们已经可以实现分钟级的热点事件收录,已经积累了千万量级事件库的规模,覆盖十几个领域以及4300多种事件类型。

③ 关键技术:事件抽取—基于多轮阅读理解问答技术

事件抽取的目标是将事件文本结构化,结构化是知识收录的关键,因此它是整个事件图谱构建的关键环节。这里简要介绍一下百度在事件抽取上最新的进展。我们是基于多轮阅读理解的技术去实现事件的抽取,把传统基于分类方法转化为基于阅读理解问答任务是更具备通用性,通过多轮问答机制引入,利用论元之间的潜在语义关系,提升准确率。

④ 事件图谱应用

上图是事件图谱的应用,包括百度搜索的热点事件脉络,以及疫情脉络等等。

还可以根据事件图谱做地图的POI变更检测,以及智能写作相关的应用。

3. 视频理解图谱

接下来简要展示一下百度在多媒体、跨媒体新的媒体形态上的一些探索。

① 基于知识图谱的视频语义理解

首先来看基于知识图谱的视频语义理解。传统基于感知的视频内容分析,由于缺乏背景知识,难以做到对视频的深度语义理解。我们提出一种基于知识图谱的视频语义理解技术,充分利用知识图谱丰富且全面的事实来提升视频语义理解的效果。

基于知识图谱的视频语义理解技术,首先通过对视觉、语音、文本的多模态内容进行解析融合,利用知识子图关联技术建立与视频理解知识图谱的连接,通过背景知识以及基于多模态知识的计算与推理,实现对视频的深度语义理解。

② 视频理解图谱应用

上图是视频理解图谱的实际应用产品。目前,这一套基于知识图谱的视频理解技术在百度信息流、搜索、好看视频、全民视频等很多产品中作为关键技术进行支持。

4. 行业知识图谱

最后,讲解一下百度在行业知识图谱构建和应用方面的一个进展。行业知识图谱主要面向医疗、法律、金融、风控等强专业性的知识。主要会介绍百度的知识中台以及行业知识图谱的应用。

① 行业智能化亟需数据到知识的转化

近年来,越来越多的行业、企业希望利用知识图谱来沉淀行业知识,提升行业应用的智能水平。

据统计,随着信息化的发展,各行各业的数据都是逐年攀升,行业数据体量巨大,行业知识需求广泛。与此形成鲜明对比的是行业数据转化困难,利用率低,人工构建成本非常的高。在这样的背景之下,行业智能化转型亟需从数据到知识的自动转化能力。

② 通用知识图谱vs.行业知识图谱

实际上,行业知识图谱和通用知识图谱在技术要求层面差异巨大,这也给行业知识图谱技术和应用带来了巨大的挑战。

具体而言,在图谱表示方面,通用知识图谱通常用简单的SPO三元组表示知识就可以了,但行业的知识类型更加复杂,往往需要表示时序、事件,甚至流程等复杂知识。在图谱构建方面,通用知识图谱的数据主要源于互联网,而对于行业而言,知识空间相对封闭,一般来说缺乏大量的标注数据,专家标注的成本非常高。在图谱服务方面,通用知识图谱通常是离线的、平台化的、在线的,而行业知识图谱往往会面临私有化、组件化的挑战。最后在图谱应用方面,通用知识图谱主要以理解为主,比如最常见的问答、推荐等应用形式,也包括在搜索里的结构化展示,而在行业里面,知识应用需求会更高,往往涉及推理计算甚至决策等,它的应用深度也会更深,所以两者差异是非常大的。

③ 知识中台产品技术视图

百度为了更好地帮助企业凝练知识,助力企业提升智能化的水平,研发了知识中台。它是基于百度多年积累的核心能力打造的全周期、智能化企业知识赋能解决方案。百度企业知识中台在底层对接行业数据,上层支持场景场景,为企业提供高效的知识生产能力、灵活的知识组织能力、便捷的知识获取能力和智能的知识应用能力。

目前,百度知识中台标准化产品矩阵包括企业搜索、智能知识库、行业知识图谱平台和决策引擎,未来还会不断丰富知识中台的核心能力和产品矩阵,去支持更多的业务场景。百度知识中台已经在包括医疗、金融、法律、能源、政务等不同的行业进行了落地,为客户取得了显著的收益。

④ 知识中台赋能智慧医疗

首先,在医疗知识图谱方面,我们已经积累了数十个医学类别,近30万医学实体,近200种关系属性类别,1000余万医学事实。构建效率是百倍于人工,知识覆盖率90%以上。

在应用效果方面,我们在合理用药方面拦截了90%以上的不合理用药,超越竞品;在病历质控方面,准确率达到95%,对比人工提升20倍以上;在辅助诊断方面,基层试点区域误诊、漏诊率大幅降低。

⑤ 知识中台赋能智慧法律

另外一个成功的应用场景是知识中台赋能智慧法律。在类案检索方面,我们实现了标准化、精细化、体系化的类案知识体系构建,类案推荐满足度达到90%,办公效率和结案率显著提升。在智能庭审方面,能够自动识别归纳庭审文书中的知识要素,庭审效率大幅提升,同时降低卷宗处理、庭审分析案件的人工成本。

03

技术及数据开放

1. 发布数据

最后简要介绍一下技术和数据开放方面的工作。百度知识图谱和自然语言处理部连续三年发布数据,跟学界、业界同行一起举办竞赛,包括连续三年举办的语言与智能技术竞赛。在CCKS上面我们也连续两年举办实体链指评测,任务面向真实应用场景,提供人工标注大规模数据集、开源基线系统、在线排行榜以及计算能力。今年竞赛报名人数达到6000多人,是非常受大家关注的比赛。

2. 千言

同时,今年发布了“千言”项目,这是面向自然语言处理的中文开源数据共建项目。包括7大任务,20多个中文开源数据集,提供统一数据格式和评测,并且提供了基线系统。

未来三年我们会扩大到20多项任务,100多个中文开源数据集,我们也邀请更多NLP开源数据集作者加入共建。

3. 未来展望:趋势与挑战

在知识获取、知识表示以及知识应用方面,未来会有一些趋势和挑战。在知识获取方面,要与行业场景进行结合,知识类型更加复杂,向动态化、专业化、多元化发展。知识表示方面,表示学习和推理技术需要突破,复杂知识表示等等也需要去解决。在知识应用方面,知识图谱与深度学习、NLP、语音、视觉等这些技术需要去融合,以及一些可解释性的智能化应用技术需求。

今天的分享就到这里,谢谢大家。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部