普适案例|从图谱构建到应用,企业关联关系知识图谱应用实例!

普适案例|从图谱构建到应用,企业关联关系知识图谱应用实例!
2022年06月30日 12:59 DataFunTalk

共3322字 阅读完需:约 19分钟

INTRODUCTION

前言

知识图谱在金融科技时代发挥了巨大的价值,知识图谱的推理能力和可解释性,在金融场景中具有天然的优势。利用知识图谱等人工智能技术从数据中提炼出知识,并通过算法等方式建模服务于应用。知识图谱凭借其强大的语义表达能力、存储能力和推理能力,为互联网时代的数据知识化组织和智能应用提供了有效的解决方案。

小普今天分享一篇企业关联关系知识图谱构建与应用实践,展示了从图谱构建到应用的全流程。基于企业关联关系知识图谱,实现了关联路径查询、企业实际控制人发现、企业集团发现等模型应用,为企业挖掘隐藏的企业关联关系提供有效思路。

本文从数据挖掘业务的视角下,解答以下几个问题,希望给予小伙伴一些新思路,一起往下看吧。

1、为什么需要企业关联关系知识图谱?

2、构建企业关联关系知识图谱需要哪些数据?

3、如何关联实体、关系和属性?

4、企业关联关系应用实例

FLOW

企业关联关系知识图谱构建流程

一、前期准备:业务需求定位。

知识图谱的构建应是业务应用驱动的。本次的业务目标:通过构建企业知识图谱,深入挖掘企业在生产经营过程中与其他企业之间产生的各类关联关系,有效的实现企业的风险预警。这对企业降低资本成本、优化企业内部治理、提升企业价值具有实际意义。

例如:某基金公司通过股权分析进行判断,当市场出现波动时,某个企业是否与资本系大多数公司的行为一致,根据市场判断,及时的进行内部调整。

做知识图谱之前,我们考虑了投入产出比,明确需求,要解决什么样的业务问题,以及评估技术的可行性。从具体业务出发,获取的企业数据,一般仅仅用内部记录的数据表格就可以看出直接关系,而关联路径查询、企业实际控制人发现、企业集团发现等,需要基于构建好的企业大图,进行复杂计算之后才能得到。

二、前期准备:数据预处理。

在这个步骤,我们需要解决的问题是:

•       我们已经有哪些数据?和有可能拿到哪些数据?

•       哪部分数据可以用来分析具体业务问题?

•       哪部分数据可以用来构建知识图谱?哪些信息不需要放在知识图谱中?

我们的技术专家与业务专家根据业务目标的设定进行深入沟通后,从金融机构获得数据源,包括存储在其内部关系数据库中的相关表(公司注册信息表、企业人员信息表、企业状态信息表、关联企业信息表)。我们首先将无用字段和一些存在较多空数据的字段去除掉。

公示平台的数据包含企业公示的所有工商信息、人员信息和信用信息,因此其数据的完整性和可靠性能够支撑本文的知识图谱,能够反映一段时间内企业关系网络的真实状态。此外,现实世界的企业之间还存在竞争、合作、上下游、家族企业等关系,本文暂且先不做阐述。

三、开始图谱构建:本体模型定义。

在这个步骤,我们需要解决的问题是:

•   该业务场景需要哪些实体、关系和属性?

现实世界的企业关系网络远远非常庞大且复杂,建立一个包含大量企业关联关系的知识库也是十分具有挑战性的。

通过对数据表的字段定义和它们之间关系的分析,从而确定了实体、关系和属性。其中包含公司和个人两种实体,公司之间的 4 种直接关系(股东、投资、担保、分支),公司与个人之间的 5 种直接关系(股东、投资、担保、高管、联系人),如表 1 和表 2 所示。可实现对企业关联关系的挖掘,得到企业实际控制人、企业所属集团这两种更深层的关联关系。

表 1 

表 2

然后我们将这些整理好的数据,导入到已经构建好的业务本体模型当中。图 3 展示了知识图谱本体模式层的一部分,包含代表公司和个人的节点,代表企业之间的分支、股东、担保、投资等关系的边,代表个人与公司之间的高管、股东、投资、联系人、担保等关系的边,以及节点和边中包含的部分属性,其他大量属性如企业工商信息、个人信息等出于简洁的考虑,并未在图 3 中显示。

图3

四、知识图谱的模型应用:

关联关系挖掘。

关联关系挖掘就是在现有知识图谱上进行知识查询与知识发现的过程,即结合实际应用场景,从现有实体的关联关系中识别和推断出新的关系。

由于构建好的知识图谱,只是对现实世界的企业关系网络的知识表示,其本身并不能直观地反映企业之间存在的隐式关联关系。因此需要基于现有的企业关联关系,设置推理规则、指标和模型等。从而发现企业之间隐藏的关联关系,最后构建了关联路径查询、企业实际控制人发现、企业集团发现这三种关系挖掘模型。

•       场景应用:关联路径查询

企业之间的直接关系能够在知识图谱中直观表示出来,但是当一家企业与大量其他企业产生联系时,间接的关联关系广泛存在却难以被发现。如何对看似割裂、但实际存在间接关联的两个实体进行关联关系挖掘,对于企业关系发现、风险传播预测等有重要的意义。

如图 4 所示,指定的个人节点 P1 与企业节点 D 之间是否存在路径?需要找到源节点与目标节点之间的直接或间接路径,即任意两个节点之间的关联路径问题。

图4 蓝色代表公司,黄色代表人

两个实体之间经过多个中间节点形成的关联路径,可以表示为它们之间的间接关联关系。对于实现业务目标来说:关联路径查询能够发现企业知识图谱中任意两个实体之间存在的路径,可以衡量企业之间联系的密切程度,发现可能存在的风险问题。以图 4 为例,查询 P2 C 之间的关联路径,其查询结果如图 5 所示,可以看出 P2之间存在的联系。关联路径查询的算法如下所示。

图5 蓝色代表公司,黄色代表人

•       场景应用:企业实际控制人发现

资本成本是衡量企业是否要进行筹资以及如何进行筹资的标准。在现代企业体系下,由于企业的控制权受到股权、协议或者其他安排等因素的影响,导致公司的实际控制人很难被发现。并且,存在股东签订的协议或者其他安排导致公司控制权变更的情况,且相关数据获取困难。因此,研究实际控制人的所有权比例、控制权比例以及两权的分离度与企业资本成本之间产生的关系是有意义的。

如图 6 所示,通过计算持股比例,判断个人节点P1 是否实际控制了公司节点C ?需要判断一家公司或者一个人是否通过多数的股权比例对另一家公司形成控制权,即公司实际控制人的发现问题。

图6 蓝色代表公司,黄色代表人

笔者在知识图谱中采用图的深度优先遍历算法,基于股东关系,找到指定公司被持股的所有路径。然后分别计算每一条路径上的最上层的股东节点对其的持股比例,通过加法运算和比较,得到最终持股比例超过某个值 X 的最上层股东,即为该公司的实际控制人。

•       场景应用:企业所属集团发现

企业集团整体的持股结构一般呈现金字塔式或者围绕式的结构。在本文的企业知识图谱中,企业之间的股东、分支关系,个人与企业之间的股东、高管和联系人关系是组成企业集团的联系。

图7 蓝色代表公司,黄色代表人

企业集团其紧密的组织结构和统一的管理模式,可以保证整个集团的规模经济和整体竞争力。另一方面,存在以下几种潜在威胁:

集团内部带来了“牵一发而动全身”的潜在风险,增加经济市场不稳定因素。

金融或监管机构失去对相互担保、交叉持股等高风险行为的监管和判断。

企业集团的边界通常难以被界定,一些集团核心企业通过长投资、长控股链条以及外派高管、家族经营等方式控制外围公司。这些公司很容易被认为是独立运营的个体。

因此,找到企业的所属集团,可以根据集团成员公司的生产经营状态判断整个集团的业务活动,或者根据集团核心企业的经营活动从而判断其他企业成员的行为,这对及早地发现企业集团的潜在风险,对企业集团做出更有效的监管具有重要的意义。

通过算法,沿着一条股权控制路径找到企业的实际控制人,然后通过实际控制人的所有股权控制路径找到其他控股企业,形成一个股权控制骨架。在此过程中,当实际控制人控制的具有独立法律地位的企业数量达到阈值时,则认为其可以构成企业集团。 

图8

如图 8 ,是在知识图谱中得到的部分企业集团概况,中间节点为公司,发散开的节点为个人,可以看出企业集团都是以某个公司或个人为核心形成的。通过企业所属集团发现,可以快速定位企业所属集团,以及该企业在集团内部的地位,这对分析企业风险传播路径、企业集团经营活动有很大的帮助。

CONCLUSION

总结

本次小普介绍了,基于现有的结构化数据,用自底向上的方式构建了一个企业关联关系知识图谱。并在此基础上对企业之间的关联关系进行挖掘分析,实现了关联路径查询、企业实际控制人发现以及企业集团发现等模型应用。

在实际业务中可实现的关系还可以包括:企业的上下游关系、技术授权关系、产品销售关系以及个人之间的夫妻、家族关系等,受到数据收集和处理难度的影响,并未加入到本文知识图谱中。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部