论文部分内容阅读
随着智能时代和大数据时代的到来,各种复杂异构数据不断涌现,它们成为数据驱动的人工智能方法、机器学习模型的基础。复杂异构数据的表征直接关系着后续模型的学习性能,所以如何有效地表征复杂异构数据成为机器学习面临的一个重要挑战。本文对典型的复杂异构数据进行了深入的分析,根据数据的内部特点和复杂性进行了一系列表征学习模型研究,提出了多种新型的表征学习方法。(1)离散数据的表征学习框架及实例化算法。真实世界的离散数据中包含复杂的数据耦合关系,这种耦合关系不仅存在于两两的特征之间或者特征值之间,还可能由此产生不同粒度的特征值类(即交互关系较强的特征值组成的类),同时这些特征值类之间也可能存在一定的耦合关系。本文提出了一个通用的无监督离散数据表征学习框架(CURE),它不仅能够捕获离散数据中的层次化耦合关系,还能被实例化为不同的算法从而应用于不同的应用场景。CURE根据两个特征值耦合关系函数学习不同粒度的特征值类,并在此基础上学习特征值类之间的耦合关系。同时我们将CURE实例化为两个模型:适用于聚类的耦合数据嵌入算法(CDE)和适用于高维数据异常检测的耦合异常打分算法(COSH)。CDE将离散数据嵌入到一个特征相互独立且语义丰富的欧式空间。COSH通过捕获高维数据中的异常行为将数据用异常值表征,从而方便后续异常检测。大量的实验表明,CDE比现有的无监督编码方法和最新的相似度度量方法在聚类应用中的表现更好,COSH相比最新的五种异常检测算法有明显的性能提升。(2)混合数据的表征学习模型。混合数据包含离散特征和连续特征,是一种典型的异构结构化数据。学习一个好的混合数据表征对于后续的学习任务非常重要同时也极具挑战性。现有的混合表征学习方法通常难以捕获了离散特征和连续特征之间的异构耦合关系,同时忽略了数据对象之间的区分性。为了解决这个问题,本文提出了一种自引导式的表征学习机制,即自引导机。自引导机中两个不同编码空间通过相互提供监督信号实现相互学习、相互引导,最终完成无监督的表征学习过程。根据混合数据的数据特点,我们将度量学习引入自引导机,提出了新的混合数据表征模型,即基于度量学习的自引导机(MAI)。在新模型中,我们构造了两个互补的编码空间,在这两个编码空间上分别构造了多层神经网络,利用各个编码空间产生的数据对象距离排序信息为另一个编码空间提供监督信息,从而完成相互学习。我们将MAI学习到的混合数据表征应用到基于划分和基于密度的聚类算法中。与现有的混合数据表征方法相比,MAI的在八个数据集上的聚类性能有大幅度提高,同时表征的可视化结果也验证了MAI所学表征对于数据对象更具区分性。(3)属性网络的表征学习模型。属性网络在复杂网络的基础上增加了节点属性信息,是一种典型的关系型数据与非关系型数据结合的异构数据。而一个复杂网络形成是由节点的多方面影响力和节点之间的多方面交互关系而驱动的,这些影响力和交互关系不仅反应在网络结构上,也体现在节点属性中。现有的网络表征方法很少考虑上述的这些方面,大部分是研究如何在表征中保留网络拓扑结构,却忽略了边背后的连接动机和节点属性信息对边连接的贡献。所以在本文中,我们提出了一个基于网络拓扑结构和节点内容信息的、融合多方面交互关系和多方面影响力的演化耦合模型(MAI-ECS)来学习属性网络的表征。MAI-ECS包含两个子系统:一个是用于捕获隐藏在拓扑边背后的多方面交互关系的学习系统,另一个是用于捕获节点多方面影响力以及模拟影响力传播的动力系统。MAI-ECS有机地统一了这两个系统,并联合优化这两个系统,从而得到包含了网络结构和节点内容的有效表征。MAI-ECS在节点分类和连接预测中比最新的网络表征方法性能更好,同时,我们还通过实验展示了MAI-ECS生成表征的语义可解释性。(4)跨领域多模态数据的表征学习机制及模型。跨领域数据和多模态数据是常见的复杂异构数据,它们中可能包含数据分布异构性、结构异构性和模态异构性。在认知学和教育学中,同理心对于人类理解和学习其他人的感情和思想有着重要作用。我们认为同理心学习机制对于机器学习中跨领域或跨模态的学习有很强的借鉴意义。本文受人类认知学中的同理心学习启发,提出了新的跨领域多模态表征学习机制,即同理感知机(EPM)。EPM通过模仿人类同理心学习中的换位思考和自我反省方式,构建了换位学习模块和自增强模块。换位学习模块通过类别对齐来约束分布对齐,从而学习到兼容另一领域或模态的换位表征(PTR)。自增强模块通过实现自我识别,将换位表征转换为自增强表征(SRR),并将另一领域的知识融合到自增强表征中。通过更改模块的共识信息,我们将EPM应用到领域适应得到新的模型(EPM-DA)和多模态学习中得到模型(EPM-MML)。EPM-DA和EPM-MML分别被用于半监督的领域适应任务和图像-文本的跨模态检索任务中,与最新的方法相比性能有明显提升。同时,我们还对换位表征和自增强表征进行了理论分析,并在实验里展示了它们各自的特点和作用。