AI研习丨面向复杂大数据的自适应学习研究_

文/杨杨

摘要：

面向多源增量数据，新一代大数据智能分析力图建立具有自主学习能力的模型和算法。因此，本文系统地研究基于多源增量数据学习的理论与方法，围绕基于复杂多模态数据的稳健学习和基于动态演化数据的可适增量学习两个关键科学问题展开研究；运用多模态学习技术、持续学习技术、深度学习技术、图表示学习技术和优化理论等技术，研究在统一框架下的多源增量学习；针对基于复杂多模态数据的稳健学习研究不均衡场景下的多模态学习、关联缺失场景下的多模态学习，以及基于动态演化数据的可适增量学习，研究类别动态变化场景下的开放集识别、数据分布变化场景下的灾难性遗忘减缓。同时，将上述研究内容用于解决真实媒体多模态数据、增量数据的分类和聚类等问题。相关研究在大数据的复杂数据表示、增量自适应学习等方向取得初步进展，方法和技术上取得创新，且对相关应用有实用价值。

关键词：

多模态学习；多标记学习；增量学习；开放集识别；灾难性遗忘；深度学习

引言

随着互联网和信息技术的发展，在各行业中积累了海量的数据。例如 2018 年微信每日发送信息 450亿次，新浪微博日活跃用户 2 亿，微博视频 / 直播日均发布量为 150 万；2019 年京东“618”开场 1 小时下单金额 50 亿元；中国 3 万家综合性医院，每年新增数据量可达 20 Zbit。由此，如何有效进行各行各业大数据的挖掘并加以利用，受到了各国政府的重视，也备受企业和学术界的关注。大数据技术经过几年的发展，取得了可喜进展。然而，现实复杂动态环境下大数据通常呈现多源增量性，即复杂样本可通过多源信息（即多模态信息）加以描述，同时根据时间信息以增量形式收集大数据。经典大数据的 4V 特点表现为规模海量（volume）、表示多样（variety）、生成快速（velocity）及价值密度低（value）。而这些特点也恰恰对应多源增量大数据的多源复杂表示和分布动态演化两个基础问题，给新一代大数据智能分析中的数据表示、模型构建带来了极大挑战，其中主要包括数据多源复杂表示导致的表征学习问题，以及数据分布演化导致的模型构建问题。

具体地，数据表示是指对现实应用中事件或对象的形式化或符号化描述，便于机器模拟人去理解数据本身的结构和信息。因而，有效的数据表示是大数据智能分析的先决条件。复杂对象的数据表示通常可以通过多源信息加以描述，即多模态表示。传统的多模态表示学习常利用模态间的关联信息通过子空间学习或统一表示学习获得各模态的高阶语义表示，进而有效进行后续的表示融合、分类和聚类等任务。然而，真实应用中数据是动态变化的，再考虑噪声干扰、收集缺陷等因素，多源数据多呈现弱关联（包括关联噪声、关联缺失）这一复杂问题，造成多源大数据的关联模糊、信息有差异，难以有效融合各通道信息，进而导致现有多源数据表示的不稳定。

除了多源数据表示存在的不稳定问题，稳健的模型构建也是大数据分析的重要环节。传统的模型构建通常针对静态数据进行建模，即假设可收集服从整体分布的训练数据。然而，真实应用中数据呈现增量性，具有样本和标记分布演化（样本分布变化、数据类别增减）挑战，造成模型无法有效刻画动态演化的大数据，进而导致现有针对增量大数据的模型构建不稳定问题。

现有的大数据智能分析方法重点关注稳定条件下的分析和性能、效率提升，关注动态环境下大数据的多源复杂性、增量演化性所导致的不稳定性的研究较少，从而给新一代人工智能中的大数据智能带来了一系列挑战，所以亟需研究具有自主能力的自适应学习模型和算法。为此，面向开放环境下大数据的自主学习是人工智能领域的关键技术，从大数据的特点切入，研究提出：① 基于复杂多模态数据的稳健学习；② 基于动态演化数据的可适增量学习，以应对开放环境中大数据存在的“表示异构”“生成快速”“价值密度低”等挑战，使基于多源动态数据的自组织、自学习研究能够契合开放环境，具有重要的理论意义和应用价值。

1 基于复杂多模态数据的稳健学习

开放环境下，复杂多模态数据面临两大挑战——模态表示有强弱及关联标记弱监督，导致无法精准建模并易造成模型偏差。传统的模型大多针对可靠、干净的多模态数据建模，忽略了开放环境下受干扰的多模态数据表示、标记信息。为此，提出了基于自适应度量的多模态融合模型以自适应度量模态强弱，从而进行稳健的融合学习；另一方面提出了基于鲁棒一致性的多模态交互学习框架以处理无关联数据、噪声关联数据，从而进行稳健的多模态学习。

1.1 基于自适应度量的多模态融合模型

在多模态数据中，不同模态特征表示不均衡存在强弱之分，通常强模态包含更有判别力的信息，因此需要动态度量模态的强弱关系，排除模态预测不一致干扰。以往方法采用注意力网络计算强弱模态的权重信息，我们进一步地引入模态间相关性进行权重度量学习，从独立的权重学习过渡到交互性度量。此外将传统的多模态数据扩展到异构图结构中，对图结构中强弱不一致的多模态异构节点进行表示学习，构建基于自适应度量、多层次结构化约束的多模态异构图神经网络融合模型（HM2）。

HM2 模型（见图1）首先对异构图中的目标节点经过邻居采样获取节点序列并按类别分类，接着对同种类别下的节点集合基于自注意力机制进行聚合学习，并平均池化得到统一模态表征，形式为

式中，

Nt(i)为节点i近邻类别模态t的节点集合；

为该模态节点的统一特征表示；qkl为节点k在l层的特征；

为l层中节点k、j间经由注意力头h计算得到的注意力权重；

为权重参数，在权重计算中引入异构节点间的连接类型pk,j和连接信息和atk,j；Ψ为权重映射函数；|| 表示向量拼接；⊙表示向量标量乘法。最后自适应融合多模态特征得到目标节点的最终表示，形式为

式中，

为目标节点i的最终表示；T为模态集合；βj为模态j的权重；LeakyReLU 为非线性激活函数；

为目标节点特征，最终表示由目标节点的原始节点特征和近邻模态特征拼接后经过加权融合得到。

图1 HM2 模型

我们在企业估值真实多模态分类数据集上进行实验，该数据集为公司和人员两种类型模态节点组成的异构图，实验任务是预测公司节点的估值等级标签，实验结果如表1所示。本文分别使用10%、30%、50%和70%的数据作为训练集，将HM2与传统机器学习算法、同构图神经网络算法和异构图神经网络算法进行比较。实验结果表明，使用图神经网络可以利用节点间的关联结构信息获得比传统机器学习算法更优异的性能，HM2的性能优于其他基于注意力机制的图模型，因为HM2考虑到了异构近邻和异构边，并且使用了更加高效的多头聚合注意力机制，使得异构近邻和连接的融合更加有效；从整体上来看，HM2在所有实验指标上均取得了最好的效果，在公司估值任务中准确度提升 5% 以上，说明其可以从异构节点或边中学习与公司估值问题有关的信息。

表 1 公司估值等级预测结果

进一步地，我们分析了在节点聚合过程中注意力对估值的影响如图 2 所示，图中线条粗细表示权重，从整体上看公司节点模态对估值预测更有决定作用，此外同种类型的不同节点受节点特征和边属性的作用呈现出不同的注意力大小。

图2 注意力可视化

1.2 针对弱监督多模态数据研究的交互学习框架

传统多模态算法基于模态间关系对齐假设进行多模态信息融合，然而在开放环境下存在模态信息的关联不明确问题，即关联缺失问题，表现为数量不等且对应关系不明确的多示例多模态数据。为解决复杂对象多模态关系不明确导致的分歧问题，我们单独为每个模态建立独立的深度网络，通过包消歧操作得到各模态包级别的一致预测进行多标记分类，此外利用最优传输理论度量标记空间的集合信息，基于此提出了一种新颖的多模态多示例多标记深度网络（M3DN）。

M3DN 的模型框架如图 3 所示。在原始文章中存在关联缺失的多模态多示例数据可以分为文本和图片数量不同的示例包，不同模态的示例经过各自的深度网络计算单示例表示得到

和

，获得包内所有示例的特征表示后，M3DN 使用包消歧层计算包内各示例的标记预测，考虑标记间的相关性，使用最优传输理论定义损失函数为

式中，

Pv为模态 v 的传输矩阵；M为共享的代价矩阵；

和yi分别表示第i个示例包的预测和真实标记；λ1为平衡系数；r(S,S0)是凸正则化项，其中S为标记相似度矩阵、S0为先验知识初始化矩阵；S+表示半正定矩阵集合，利用该损失函数交替更新预测器和代价矩阵优化模型。

图 3 M3DN 模型框架

我们在真实复杂文章分类场景WKG Game-Hub数据集上进行实验，该数据集每篇文章包含数目不等、对应关系缺失图片和文本段，实验结果如表 2所示，M3DN 能够在不同指标上获得最佳的结果，验证了 M3DN 能够有效解决异构多模态数据的复杂表示问题及分类问题。此外，在 WKG Game-Hub 数据集上选取了4个结果样例，如图4所示，从预测的结果可以清楚地发现 M3DN 能够有效捕获模态示例和标记之间的关联。

表2 M3DN 在复杂数据集 WKG Game-Hub 上实验结果

图4 WKG Game-Hub中图片 - 标记 - 文本对应关系样例

2 基于动态演化数据的可适增量学习

开放环境下的动态演化数据主要面临新类别的开放集识别，以及模型增量更新过程中的灾难性遗忘两大挑战。传统的模型大多基于静态环境下（同分布、缓更新）的数据建模，忽略了开放环境下动态演化数据带来的不确定性。为此，研究提出了基于递进自步学习的开放集识别方法以自适应学习样本紧致表征，进而提升模型的开放集合识别能力；另一方面，研究提出基于费希尔信息矩阵的自扩展深度模型用于增量更新，在保证模型分类精准度的同时，有效阻止模型对历史知识的遗忘。

2.1 基于递进自步学习的开放集识别

类增量学习 (CIL) 的目的是利用未知类流数据训练出可靠的模型，主要的挑战是新类检测。为提升模型在开放集上对新类别的检测能力，提出了基于动态零样本学习及递进自步学习的开放集检测方法（CILF），以便在统一的框架中处理新类检测问题。CILF 将实例样本输入特征嵌入网络，利用解耦神经网络模型学习有识别力的样本紧凑表征用于新类检测。此外，CILF 采用了一种可学习的课程聚类算子，其目的是通过课程学习从简单可区分到困难的实例进行聚类，具体如下所述。

特征网络学习我们开发了一种基于原型损失的解耦深度嵌入网络，以改进类间和类内结构。对于给定的输入xi，输出特征表示为f(xi)。损失定义为

式中，

Lintra为了将同类数据拉近；Linter为了将不同类数据拉远；λ是平衡参数。具体地，Lintra通过每个实例与其原型间的类中心距离计算得到，表示为

式中，是xi被归为yc的概率；μc表示第c类的原型，共C个类别；α是控制距离强度的超参数；|πc|是第c类的数量，通过最大化xi与原型

的相关概率使损失最小化。原型更新的关键思想是缓慢地退火集群，以消除每个小批处理中的偏差实例，因此我们通过时间集合来平滑退火过程更新原型

式中，

β是控制集合的动量项；e表示初始训练的第e批次。

Linter用于改善全局类间距离使实例的投影在距离度量上更加健壮，具体形式为

式中，

是三元组集合；C是类别数；xp为与当前实例同类别的正样本；

是来自不同类的负样本，共 C-1 个，实例之间的距离使用欧几里得距离度量。

新类检测为实现复杂场景中的新类检测问题，即测试集中包含已知类和新类，二者之间的原型存在偏差，我们采用了一种可学习的课程聚类算子，通过课程学习从简单可区分到困难的实例对测试集进行聚类，使用新的聚类原型完成已知类分类和新类检测。具体地，对于未标记的实例集合

，将实例按照难度从易到难进行排序，在测试时对特征嵌入网络进行微调并检测新类原型，定义步调函数如下

式中，

v表示初始步骤中数据所占的比例；δ为每一步中增加抽取小批量大小的指数因子；ϕ为每一步的迭代次数；l为批量下标；N为实例数。利用采样小批次 {B1,B2,…,BL}，对f进行由易到难的微调，损失函数可以扩展为

式中，

λ1、λ2为权重系数；R约束已知类的更新原型接近于已训练的原型，可以正则化已知类的嵌入；

为测试阶段所有类别数；

为第l批中样本j被分为c类的伪标签，通过聚类得到；

为第l批的三元组集合，包含当前样本j、正样本p和负样本nc。在聚类时，通过计算簇效度指数（CVI）改变未知类的数量来检验得到的簇，计算如下 :

式中，

a(x)是x到同一集群中所有其他实例之间的平均距离；b(x)是x到任何其他不同集群中所有实例之间的最小平均距离 , 最优类别数是具有最大曲率的 CVI拐点。

本文在MNIST、CIFAR-10、CIFAR-50、CIFAR-100上进行实验，将CILF与新类检测方法进行对比，类分类和新类检测的性能如表3所示。从表中发现除了CIFAR-50上的AUROC外，在所有测试中，CILF 始终优于其他对比方法，进一步说明了课程聚类算子检测的有效性。

表 3 已知类分类和新类检测性能

2.2 基于费希尔信息矩阵的自扩展深度模型

现有的增量学习深度模型通常利用固定结构和在线反向传播进行模型优化，然而这些方法难以应用于增量数据场景，对于流数据构建深度增量模型存在克服灾难性遗忘的挑战，为此提出了一种基于费希尔信息矩阵的自扩展深度模型（IADM），通过为隐层搭建额外的注意力模型实现模型的可扩展，利用费希尔矩阵防止遗忘结果。

IADM 示意图如图 5 所示。为适应增量数据设置中不同网络深度适应于不同的实例数，综合考虑浅层网络快速收敛和深层网络学习能力强的特点，IADM 为隐层设计注意力网络并加权融合预测，旨在于在初始网络建立阶段利用浅层网络的快速收敛能力，并挖掘深度网络在增量场景下的学习能力。实际应用中，在学习新事物过程中为缓解灾难性遗忘以使模型具备可持续学习的能力，本文引入费希尔信息矩阵，定义如下

式中，

θ表示模型学习的条件似然分布；

为实例域；pθ (y | x)为预测值；Fθ可以看作梯度协方差矩阵的期望损失。假设

是模型在θ和

的条件似然之间的 KL 散度，当

时，可以发现 KL 散度的二阶泰勒近似可以写成

，相当于黎曼流形中的计算距离。对于神经网络来说，

，并且dθ通常为数百万，因此实际上不可能存储Fθ。为了处理这一问题，假设参数相互独立（仅使用Fθ的对角参数），得到如下近似损失

其中，Lt (f(x),y)为增量阶段 t 的损失；fl (x)为在l层隐层的预测；αl为注意力权重；

是θ在t阶段的第i个入口；是最后阶段的最佳参数；λ为权衡参数。值得注意的是，费希尔正则化将使重要参数（Fθ值较大者）保持在前一阶段的学习参数附近。

图 5 IADM

我们研究了概念突变的设定，即实例的分布在过渡阶段Xt内不会发生剧烈变化，但在不同阶段之间会发生。例如，当关注在线信息流时，用户的兴趣不会在短时间内发生变化，但是当有爆炸性信息出现时就会发生巨大变化。此外，即使在更复杂的情况下，也可以采用漂移检测算法将数据流分割为批次，保证底层分布的平滑性。因此使用费希尔信息矩阵正则化每个阶段的条件似然分布用于度量遗忘程度。直观地说，Fθ有助于网络学习参数，以便同时考虑新的和以前的分布。

在增量设置下，网络结构随着注意力机制的变化而变化，即不同层次的网络权值不同。同样在序列阶段，费希尔信息矩阵的不同部分具有不同的重要性。因此，为了递增地匹配各个阶段训练的神经网络的后验分布，我们将注意力权值嵌入到费希尔正则化的相应参数中，自适应正则化可以表示为

式中，

；⊙表示将费希尔信息矩阵中对应层的αt,l参数相乘，这种连续的平均会减少前几个阶段的影响。综上所述，模型的最终损失函数可以表示为

我们在合成数据集 Hyperplane，构建的增量图像数据集 MNIST、CIFAR10，真实世界行为动作识别数据集 UCF101 上进行实验，实验中原始干净数据为第一阶段，通过添加噪声为数据集配置后续增量阶段。图 6 为在 MNIST（见图（A））和CIFAR10（见图（B））上实验时的隐层网络权重变化，每行从左到右为数据增量下的分类网络权重图，条形图内从左往右网络逐渐加深，从结果可以看出，在初始阶段最大权重位于浅分类器，后续阶段深层分类器逐渐获得更多的注意力。图 7 为训练精度的变化结果。经过分析可知，IADM 在所有数据集上表现稳定，在不同阶段的过渡中，IADM 精度不会迅速下降，表明引入费希尔正则化项可以有效防止遗忘。

图 7 训练精度变化结果

3 结束语

本文主要面向真实复杂开放动态环境中的多源增量数据展开相关研究，围绕基于复杂多模态数据的稳健学习、基于动态演化数据的可适增量学习两个关键科学问题建立多源增量学习范式。包括研究多模态稳健学习中的不均衡场景下的多模态学习、关联缺失场景下的多模态学习，以及可适增量学习中的类别动态变化场景下的开放集识别、数据分布变化场景下的灾难性遗忘减缓。力图构建面向多源增量数据的自主学习框架；同时，将上述研究内容用于解决真实媒体多模态数据、增量数据的分类、聚类等问题。

（参考文献略）