融合安全知识库的攻击链识别研究_

【摘要】多种安全运营产品被应用在本地或云端，传统的安全检测方式在大数据和云计算的环境中逐渐显露出局限性，基于行为分析的安全检测方法迅速发展，但仍存在误报率高、缺乏上下文关联、大量依靠人工评判等缺陷。本文针对上述问题提出了一种利用外部知识库、自身安全数据和智能算法深度结合的威胁识别、评价体系。该体系融合了高速发展的知识图谱有关技术和图神经网络技术，兼具实用性和创新性。

【关键词】威胁知识库知识图谱图神经网络风险评估

1 引言

目前，安全信息事件管理(SIEM)系统、用户实体行为分析(UEBA)系统，以及扩展检测和响应(XDR)系统被越来越多的组织应用在本地或云端。大量实践表明，基于行为分析的安全检测方法在大数据和与云计算环境中越来越有优势。随之而来产生了一系列重要问题：行为的异常就等于安全威胁吗？海量日志中的威胁如何检测？识别出攻击行为风险级别如何评判？

由于缺乏对异常行为的进一步研判、潜在威胁的挖掘、合理的威胁攻击评判方式，造成了现有安全产品棘手的通病误报率高、结果缺乏上下文逻辑关联、分析大量依靠人工。这些问题会严重影响用户的实际体验，大幅降低安全系统的可用性，并增加组织安全运营中心(SOC)安全人员的工作负担。如何提高安全系统的报警准确率，已经成为行为分析关联安全检测系统迫切需要解决的问题，一般的解决方法包括以下3种。

(1)行为基线调整：采用动态行为基线，根据用户和实体近期行为数据对其基线定期更新。

(2)关联分析结合专家人工研判：根据预先设定好的规则，关联安全事件信息，辅助安全专家人工分析，对系统产生的异常行为进行研判。

(3)风险打分排序：对异常行为进行风险评估，累加其风险评分并进行排序，分析人员优先关注排名较高的用户或实体行为。

上述方法虽然在一定程度上缓解了误报率高、结果缺乏上下文逻辑关联、过度依靠人工等问题，但都只是在某一维度上的片面优化或是以牺牲系统逻辑性、实时性等性能为代价的。

本文提出了一种利用外部知识库、自身安全数据和智能算法深度结合的威胁识别、评价体系，解决误报率高、人工分析成本高且及时性差、风险评估缺乏联动等关键问题。利用本文研究的体系可采用多种智能算法，助力网络安全智能化。

2 研究内容和价值

2.1 研究内容

本文对网络安全智能化技术深入研究，首先根据对抗战术技术通用知识库(ATT&CK)、结构化威胁信息表达(STIX)等多种安全知识框架，研究用于威胁检测和攻击链识别的知识库，即威胁知识库。其中包括威胁攻击基本映射策略、威胁攻击场景与模式。在威胁知识库的辅助下研究网络安全智能化实践，探索基于图神经网络技术的威胁攻击链智能识别；有机结合威胁模式、攻击事件研究并设计风险场景，构造用于风险评估分析的风险因素模型，利用蒙特卡洛或其他随机方法进行评估计算。

2.1.1 威胁知识库

威胁知识库中包含基于安全知识框架的映射策略和威胁攻击模式，如图1所示。通过对ATT&CK安全知识框架中网络攻击技战术的研究，基于用户和实体行为构建关联的“行为到攻击技战法(TTP)”的映射关系。将ATT&CK安全知识框架引入并应用到多种产品威胁识别、威胁情报方面，归纳基于ATT&CK安全知识框架的映射策略：

(1)内部威胁与ATT&CK安全知识框架映射策略；

(2)外部威胁与ATT&CK安全知识框架映射策略。

通过对现有威胁攻击日志数据和多方威胁情报的分析，提炼出攻击模式的本体模型：

(1)研究关联多方日志数据归一化，同时分析日志中与本体模式对应成分，形成语义连贯、符合逻辑的攻击示例；

(2)从众多攻击示例中提取关键攻击步骤与威胁上下文，形成谱图化攻击模式和威胁场景。

图1 威胁知识库的作用

2.1.2 威胁智能化识别

利用专家预置的威胁攻击链模式，实现基于知识图谱和图神经网络技术的威胁攻击链智能识别，重点研究内容如下：

(1)基于威胁知识库的本体模型构建，从多方日志中构建用户知识图谱，现有的日志多为结构化或半结构化，因此研究中采用知识融合的方式构建图谱，并利用知识加工迭代完善图谱数据内容；

(2)基于图神经网络的子图匹配技术，采用已有带标注数据训练深度学习模型，训练后的模型可智能识别威胁攻击链。

2.1.3 风险因素评估模型

多种威胁场景下多样攻击链会造成不同的损失和影响，评估威胁往往会消耗安全人员大量时间和精力，且人工评估包含较多的非量化的结论。为了有效管理风险，需对风险进行量化评估。

根据对现有风险因素模型和风险评估方法的调研，本研究内容和待解决问题包括以下3点。

(1)构建适用于本研究的信息系统风险因子的分类法与本体模型。参考常用的标准，如《ISO 31000：2018 风险管理指南》，《美国标准技术研究院特别出版物 800-37》，《OpenFAIR风险分类学》[7]等。

(2)设置风险场景。研究内容主要为利用威胁场景、攻击链和风险因子本体模型，识别风险场景。从现有资产的主要利益相关者视角出发，研究并设计包含威胁事件和攻击行为的风险场景，场景的关注点落在损失和影响。

(3)明确基于统计和随机方法的风险分析方法论和流程。研究在给定风险因子本体模型和风险场景后，通用的风险分析评估流程包括场景和风险因素分解、风险因素评价策略、基于随机方法的量化估算、缓解措施(控制项)评价等一系列步骤。

2.2 研究价值

本文研究如何利用ATT&CK安全框架，挖掘数据中的威胁线索，对抗愈发隐匿和严重的内外部威胁行为，达到持续降低组织的数字化运营风险的目的。

目前，虽然在诸多威胁感知场景下，学界和产业界利用统计机器学习的威胁分析方法取得了重要的突破，但在面对高度动态复杂的网络行为分析时，感知层输入往往缺乏有安全语义的规范化建模，数据层异常而非真实恶意攻击的误报情况难以避免。此外，多维度单点的感知分析结果，仍需要专家深度参与研判与关联分析，才能完整还原攻击行为全貌，限制了高级持续攻击(APT)、内部威胁等高级复杂攻击技战术的分析自动化水平的提升。本研究通过构建威胁知识图谱，将语义孤立的多元异构信息联系起来，并利用图神经网络嵌入技术发现海量日志中的潜在攻击链。

攻击链的识别可为安全人员提供重点关注对象和相关上下文信息，同一类型场景下的不同攻击链和不同场景下的相似攻击链都需要评估，以便优先处理更加紧急的安全事件。本研究提出风险因素模型，即选取定义一致的风险词汇表及各风险因子的关系，可以帮助组织的安全人员进行威胁处理优先级排序、后续运维和风险管理工作，并有效地向决策层传递和对比风险评估结果。

3 研究方案与说明

本研究利用ATT&CK安全框架中的战术、技术等方面的知识库对异常行为进行研判，并使用深度学习和机器学习等多种手段检测并扩充威胁攻击行为，最后通过风险因素模型给予量化评估，最终达到对威胁识别、评判的目的。大体流程如下：

(1)将安全系统产生的异常、警报与ATT&CK安全框架中的战术、技术进行映射匹配，对系统所产生的异常和警报作进一步研判，缓解安全系统高误报率的问题；

(2)通过时间维度审视被关注对象的所有离散行为、结合每个离散的异常行为与ATT&CK安全框架中的技战术的映射匹配情况，以及相关联的一系列连续上下文行为，识别威胁攻击链，调查隐藏在异常和警报背后的安全威胁；

(3)根据风险因素模型和风险评估算法，量化威胁攻击链带来的影响，以便安全人员优先处理高优先级事件。

首先使用威胁知识库把异常行为映射到ATT&CK安全框架中的战术、技术，安全人员可以从海量异常报警中进一步识别出真正的安全威胁，显著降低安全系统的误报率，如图2所示。但是，网络攻击往往是一系列行为组成的，只判断离散的恶意行为并不能真正阻止攻击者，从根本上消除安全威胁。为了更好地应对网络攻击，实现对安全威胁由检测分析、编排响应到取证溯源的全生命周期的管控，需要结合多种安全框架建立威胁攻击链模型，并在其基础上利用人工智能、知识图谱与知识推理的关联技术，扩展当前威胁知识库。

图2 异常行为到ATT&CK安全框架的映射

建立威胁知识库之后，无法利用其中知识直接识别日志中的攻击链，需要利用数据融合、实体对齐、知识推理、质量评估等技术把多方安全日志转换为用户行为图谱。该图谱作为本体模式指导下的数据层，与知识库中威胁攻击模式进行匹配，用于探查攻击者的攻击技术和过程。

在用户和实体的一系列时序行为中查找隐藏威胁攻击链，难点在于行为中混合了正常行为和异常行为，很难将其与一系列的攻击链模式、模型完全精确地匹配。所以采用近似求解的子图匹配方法更为合适，如基于深度学习的一系列图嵌入算法和图匹配算法，包括图神经网络(GNN)嵌入模型、图卷积网络(GCN)嵌入模型、子图匹配网络模型等，可以将图谱中的节点连同语义信息一同转换到低维的向量空间，并通过多种相似度学习算法达成攻击链的智能学习，如图3所示。

图3 基于图神经网络的子图匹配方案(NTN：神经张量网络；ATT：注意力矩阵；conv：卷积)

最后，通过建立风险因素模型并评估威胁攻击链，达到威胁优先级排序的目的：

(1)识别风险场景，在其内定义并描述资产、威胁、控制项、影响/损失等；

(2)设计明确定义的风险因素分类法，如图4所示，该步骤可以使风险评估信息有效地传递、对比并输出报告，具体可参考知名机构所出版的标准；

(3)构建风险因素模型，该模型利用上一步定义风险因素分类法，设置一系列风险因素和子因素；为了提升评估精度，研究中选取不同子因素聚合到上级风险因素的函数，聚合函数会采用概率分布、链式聚合、层级聚合等多种形式；

(4)测量并对风险因素估值，研究中采用蒙特卡洛或其他随机方法；利用统计的原理进行辅助分析的技术还需在实验中进一步选型。

图4 风险因素分类法示例

4研究特色与创新点

4.1 威胁知识库的特色与优势

本研究所构建的威胁知识库具有以下4个方面的特色与优势。

(1)成熟的安全框架理念：将ATT&CK安全框架应用于威胁检测、分析及响应。

(2)威胁辅助分析与智能识别：把异常行为与ATT&CK安全知识框架中的技战术进行匹配映射，精准识别威胁，并利用ATT&CK安全框架中的知识辅助分析。关联各个异常行为，挖掘隐藏在其背后的完整攻击意图，并利用人工智能领域的相关算法，智能识别安全威胁攻击链。

(3)降低误报率：与传统威胁检测系统相比，基于ATT&CK安全知识库中的技战法(TTP)对系统异常和警报进行映射，可大幅度降低系统异常行为报警的误报率。

(4)已有经验知识再利用：预置各种攻击链模式、模型，智能化匹配识别系统行为数据中隐藏的威胁攻击链，挖掘攻击者的真正攻击意图。

4.2 图神经网络的子图匹配算法特色与优势

图神经网络的子图匹配算法特色与优势主要体现在以下2个方面。

(1)结合新知识、新理念、新技术：构造以日志数据为基础，引入专家知识的本体模型；将用户行为与威胁攻击模式图(谱)化，再利用基于图神经网络子图匹配技术，把复杂多样攻击链识别过程转化为深度学习过程。

(2)节点特征向量嵌入不同抽象层级的特征空间：通过把日志数据和威胁模型中部分实体映射到更高抽象层级的ATT&CK威胁框架内，可给图谱中节点的特征向量提供额外维度且不同抽象层级的信息，结合日志中已有的实体特征信息，可加速节点匹配过程，提升子图匹配模型的性能和匹配成功率。

4.3 风险因素模型特色和创新

本研究所采用的风险因素模型具有以下2个方面的特色和创新。

(1)从风险的角度度量攻击事件和行为：威胁与攻击链识别从网络空间安全的角度出发，注重攻击者的行为序列及攻击产生的前因后果。而风险因素模型从风险管理的角度考虑多种安全域和控制项，结合威胁频率、攻击强度、资产损失等因素综合且全面评价攻击事件，把攻击知识领域和风险管理领域有机结合。

(2)采用概率和统计结合的量化评估流程：建立风险因素关联的概率模型，再结合攻击链识别技术，风险因素模型由静态转为动态，不但可根据实际识别结果有效区分高频低损失威胁和低频高损失威胁，还可根据实际业务集成于多种风险场景中。研究采用蒙特卡洛模拟算法模拟统计分析过程，可解决因子关联的复杂概率模型抽样困难的问题。

5 结语

利用基于ATT&CK和STIX安全框架构建威胁知识库可以在很大程度上提升各类基于行为的安全系统的检测精度，并且可以深入挖掘隐藏在一连串异常行为背后的威胁攻击链，从而分析攻击者的真正意图。威胁知识库构建的难点在于如何更好地构建基于ATT&CK安全框架的映射策略、识别威胁攻击链这两方面。对于映射策略而言，需要安全人员对ATT&CK安全框架具有较深入的理解，并且了解自身所掌握的数据和具体需求。根据实际使用效果不断调整映射策略中不合理的映射关系。风险因素模型对攻击链的风险评估，让智能算法的应用更加可行。攻击链可能造成风险在不同场景中有很大不同，结合威胁场景、风险因素模型，可有效度量攻击链的风险，帮助安全人员优先响应重要事件。

(原载于《保密科学技术》杂志2023年1月刊)

头条号入驻

金台资讯每日精选热点资讯，时事热点、健康养生、娱乐八卦

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

融合安全知识库的攻击链识别研究

头条号入驻

为科技创新注入更多金融动能

首批沿海开放城市站上新起点

推动沿海对外开放迈上更高水平（开放谈）

财经自媒体联盟更多自媒体作者

热文排行榜