基于复杂异构数据的表征学习研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:chaofree900521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能时代和大数据时代的到来,各种复杂异构数据不断涌现,它们成为数据驱动的人工智能方法、机器学习模型的基础。复杂异构数据的表征直接关系着后续模型的学习性能,所以如何有效地表征复杂异构数据成为机器学习面临的一个重要挑战。本文对典型的复杂异构数据进行了深入的分析,根据数据的内部特点和复杂性进行了一系列表征学习模型研究,提出了多种新型的表征学习方法。(1)离散数据的表征学习框架及实例化算法。真实世界的离散数据中包含复杂的数据耦合关系,这种耦合关系不仅存在于两两的特征之间或者特征值之间,还可能由此产生不同粒度的特征值类(即交互关系较强的特征值组成的类),同时这些特征值类之间也可能存在一定的耦合关系。本文提出了一个通用的无监督离散数据表征学习框架(CURE),它不仅能够捕获离散数据中的层次化耦合关系,还能被实例化为不同的算法从而应用于不同的应用场景。CURE根据两个特征值耦合关系函数学习不同粒度的特征值类,并在此基础上学习特征值类之间的耦合关系。同时我们将CURE实例化为两个模型:适用于聚类的耦合数据嵌入算法(CDE)和适用于高维数据异常检测的耦合异常打分算法(COSH)。CDE将离散数据嵌入到一个特征相互独立且语义丰富的欧式空间。COSH通过捕获高维数据中的异常行为将数据用异常值表征,从而方便后续异常检测。大量的实验表明,CDE比现有的无监督编码方法和最新的相似度度量方法在聚类应用中的表现更好,COSH相比最新的五种异常检测算法有明显的性能提升。(2)混合数据的表征学习模型。混合数据包含离散特征和连续特征,是一种典型的异构结构化数据。学习一个好的混合数据表征对于后续的学习任务非常重要同时也极具挑战性。现有的混合表征学习方法通常难以捕获了离散特征和连续特征之间的异构耦合关系,同时忽略了数据对象之间的区分性。为了解决这个问题,本文提出了一种自引导式的表征学习机制,即自引导机。自引导机中两个不同编码空间通过相互提供监督信号实现相互学习、相互引导,最终完成无监督的表征学习过程。根据混合数据的数据特点,我们将度量学习引入自引导机,提出了新的混合数据表征模型,即基于度量学习的自引导机(MAI)。在新模型中,我们构造了两个互补的编码空间,在这两个编码空间上分别构造了多层神经网络,利用各个编码空间产生的数据对象距离排序信息为另一个编码空间提供监督信息,从而完成相互学习。我们将MAI学习到的混合数据表征应用到基于划分和基于密度的聚类算法中。与现有的混合数据表征方法相比,MAI的在八个数据集上的聚类性能有大幅度提高,同时表征的可视化结果也验证了MAI所学表征对于数据对象更具区分性。(3)属性网络的表征学习模型。属性网络在复杂网络的基础上增加了节点属性信息,是一种典型的关系型数据与非关系型数据结合的异构数据。而一个复杂网络形成是由节点的多方面影响力和节点之间的多方面交互关系而驱动的,这些影响力和交互关系不仅反应在网络结构上,也体现在节点属性中。现有的网络表征方法很少考虑上述的这些方面,大部分是研究如何在表征中保留网络拓扑结构,却忽略了边背后的连接动机和节点属性信息对边连接的贡献。所以在本文中,我们提出了一个基于网络拓扑结构和节点内容信息的、融合多方面交互关系和多方面影响力的演化耦合模型(MAI-ECS)来学习属性网络的表征。MAI-ECS包含两个子系统:一个是用于捕获隐藏在拓扑边背后的多方面交互关系的学习系统,另一个是用于捕获节点多方面影响力以及模拟影响力传播的动力系统。MAI-ECS有机地统一了这两个系统,并联合优化这两个系统,从而得到包含了网络结构和节点内容的有效表征。MAI-ECS在节点分类和连接预测中比最新的网络表征方法性能更好,同时,我们还通过实验展示了MAI-ECS生成表征的语义可解释性。(4)跨领域多模态数据的表征学习机制及模型。跨领域数据和多模态数据是常见的复杂异构数据,它们中可能包含数据分布异构性、结构异构性和模态异构性。在认知学和教育学中,同理心对于人类理解和学习其他人的感情和思想有着重要作用。我们认为同理心学习机制对于机器学习中跨领域或跨模态的学习有很强的借鉴意义。本文受人类认知学中的同理心学习启发,提出了新的跨领域多模态表征学习机制,即同理感知机(EPM)。EPM通过模仿人类同理心学习中的换位思考和自我反省方式,构建了换位学习模块和自增强模块。换位学习模块通过类别对齐来约束分布对齐,从而学习到兼容另一领域或模态的换位表征(PTR)。自增强模块通过实现自我识别,将换位表征转换为自增强表征(SRR),并将另一领域的知识融合到自增强表征中。通过更改模块的共识信息,我们将EPM应用到领域适应得到新的模型(EPM-DA)和多模态学习中得到模型(EPM-MML)。EPM-DA和EPM-MML分别被用于半监督的领域适应任务和图像-文本的跨模态检索任务中,与最新的方法相比性能有明显提升。同时,我们还对换位表征和自增强表征进行了理论分析,并在实验里展示了它们各自的特点和作用。
其他文献
研究背景2009年3月,我国启动实施覆盖全民的国家基本公共卫生服务项目,并将促进基本公共卫生服务逐步均等化作为深化医药卫生体制改革的重点工作。过去的10年多来,国家基本公
Major depressive disorder(MDD)has been a devastating neurological problem in modern history.However,therapeutic strategies to relief the disease are inadequate.
在下个世纪,将有10亿人生活在大坝的下游,这足以表明了风险分析的重要性.本文探讨了哪种分析适合于哪种大坝,以及这种分析的费用和有效性程度.
建设社会主义新农村重点和难点在于农村公共事业的建设与管理,农村公共事业的发展是农村全面发展的基础和保障,完善农村公共事业管理有利于建设"生产发展、生活宽裕、乡风文
1示范区基本情况攀枝花市位于川滇交界处,区内山高谷深、地势陡峻、耕地分散,属金沙江干热河谷地带,具有南亚热带气候特征。年降雨量少而集中,多年年均降雨量为760mm,雨季6~9月降雨
给出了数学规划方法处理配载问题的一般思路,从船方和码头方两个角度给出了自动配载问题近十多年的研究进展,指出大容量集装箱船舶和新型装卸设备的出现,以及实时配载策略是自动
期刊
植物蓝染历史悠久,对中国的服饰文化影响深远,极具人文艺术价值,是现代服装设计的灵感宝库。目前,关于植物蓝染的研究,大多围绕其基础纹样及其工艺操作层面,对其在服装中的应用设计研究资料有所欠缺。现代蓝染服装存在产品款式同质化,装饰纹样老旧,认知度不广等问题,其艺术价值及商业价值有待充分发掘。进行本课题,旨在实现蓝染工艺及其文化与现代服装设计的和谐共生、与时俱进,从而更好地传达现代设计中的蓝染艺术之美。
传统的高校体育教学模式对学生的限制较多,而且也没有突出学生的个性,使得学生的潜能无法真正发挥出来,再加之评级模式不够科学合理,致使体育基础差的学生完全失去了优势。要
四川省水利水电勘测设计研究院成立于1963年,1997年经水利部批准,冠名为:“水利部四川水利水电勘测设计研究院”(简称:水利部四川院)。四川院是一家拥有水利水电工程设计、勘察、测