面向属性网络数据挖掘的相似性度量方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:zhang19890922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术,尤其是传感器网络与物联网等技术的飞速发展,各类复杂系统的数据呈海量性增长,从这些数据中挖掘与系统相关的规律与模式,对于理解、分析、运用与改造复杂系统具有至关重要的作用。作为数据挖掘的基础性工作,相似性度量方法直接关系后续数据挖掘任务的实现,一直是数据挖掘研究的热点与难点。属性网络作为有效的复杂系统建模工具,其相似性度量方法主要考虑节点在整个网络中的拓扑结构特征,往往忽略了节点自身的非关系型局部特征对相似性的贡献。如何分析节点的耦合异构、类型复杂、动态不确定的局部特征的相似性,并与节点在网络中的拓扑结构特征结合进一步分析节点的结构/属性平衡相似性,仍然缺乏系统性的探索与研究。本文从属性网络节点的局部特征入手,根据特征数据的内部特点和复杂性,提出了无监督学习下节点在多种局部特征数据类型上的相似性度量方法。在此基础上,结合节点在网络中的拓扑结构特征,进一步提出了能够有效平衡节点结构特征与属性特征的属性网络相似性度量方法:离散数据相似性度量方法。为了分析属性网络节点在离散数据特征上的相似性,考虑离散属性之间可能存在的复杂耦合关系,本文提出了一种基于异质加权图的离散数据相似性度量方法(HGS)。首先,通过对数据对象与属性值进行节点建模与边关系建模,将离散数据的二维信息表征转化为异质加权图表征;其次,在对相似值进行初始化后,迭代计算所有组合节点的相似值直至收敛,稳定后的相似值即为最终的相似性度量结果。最后,在聚类实验与相似性搜索实验中开展应用研究,并与多种离散数据相似性度量方法进行对比,验证了 HGS方法的有效性和可行性。通过异质加权图表征与迭代方式,本文所提出的HGS方法能够充分挖掘属性网络节点的离散属性之间、属性值之间以及存在强交互关系的属性值类之间的复杂耦合关系,实现科学有效的相似性度量。混合数据相似性度量方法。混合数据中包含离散属性和连续属性,是复杂系统单元常见的异构结构化数据类型。为了分析属性网络节点在混合数据特征上的相似性,考虑离散属性与连续属性之间可能存在的异构耦合关系,本文提出了一种基于异质耦合表征的混合数据集成相似性度量方法(HMVS)。首先,通过基于K-Means的连续属性自动离散化方式,将连续属性转化为离散属性,提取离散数据视图,并分析所有离散属性间的耦合关系,调整HGS方法对离散数据视图进行相似性度量;其次,通过相似性表征将离散属性转化为连续属性,提取连续数据视图,并基于最大信息系数方法捕获连续属性间的关联关系,在此基础上构建新的连续视图并通过欧氏距离度量相似性;接着,计算离散数据视图与连续数据视图下相似性的谐波均值,得到最终的集成相似性;最后,开展聚类实验应用研究验证了 HMVS方法的有效性与可行性。HMVS方法能够更加全面地捕获复杂系统单元混合数据特征的离散数据视图与连续数据视图,以及存在视图内部,视图之间的异构耦合关系,在聚类性能上也有大幅度的提升。时间序列相似性度量方法。时间序列是存在时序关系的一系列属性值,是复杂系统单元特征中常见的非结构化数据类型,可以有效刻画复杂系统单元的动态特性。为了衡量属性网络节点在时间序列特征上的相似性,本文提出了一种基于网格表征的时间序列相似性度量方法。首先,通过等间隔划分方式,构建二维网格,将一维时间序列转化为二维矩阵特征;其次,在网格表征基础上,分别提出了基于静态匹配的矩阵欧氏距离度量方法(GMED)与基于动态匹配的矩阵动态时间规整距离度量方法(GMDTW),并分析了两者的度量性质与时间复杂度;最后,开展最近邻分类与聚类实验,并将所提出的两种相似性度量方法与其他常用方法进行对比,验证了时间序列相似性度量方法的可行性与有效性。属性网络相似性度量方法。属性网络在复杂网络基础上增加了节点属性信息,是一种典型的包含关系型与非关系型特征的异构数据类型,是常用的复杂系统建模工具。复杂系统单元之间的相似性不仅体现在单元之间的相互关系,也体现在单元丰富的属性信息上。因此,为了有效分析复杂系统单元之间的全局相似性,本文提出了一种同时考虑结构特征与属性特征的属性网络平衡相似性度量方法(ANS-Mixed)。首先,基于系统的拓扑结构特征,通过复杂网络对复杂系统进行表征。其次,通过带重启的随机游走方法,计算复杂网络中节点的结构相似性;再次,针对节点的离散特征、连续特征、混合特征与时间序列特征,分别采用前文提出的HGS、欧氏距离、HMVS方法与GMED/GMDTW方法,计算节点的属性相似性;接着,计算节点的结构/属性平衡相似性,并提出一种基于K-Mediods过程的权重自动调整方法确定不同属性的权重;最后,在多个属性网络数据集上验证了 ANS-Mixed方法的有效性与可行性,并说明了 ANS-Mixed方法可以有效平衡属性网络节点在结构与属性上的相似性,在聚类中获得具有较高密度边集与较好的属性同质性的簇结构。
其他文献
资料同化是一种将数值模式和观测有效融合的重要手段,它不仅能为模式预报提供一个精确合理的初值,加深对大气状态演变的物理规律的认知,而且还能对观测系统进行交叉验证。因此,它一直是数值天气预报中一个非常重要的研究领域。集合卡尔曼滤波方法是基于经典的卡尔曼滤波发展而来,它利用预报集合构造预报误差协方差以取代经典卡尔曼方法中利用时间积分来生成预报误差协方差的过程,大大减少了计算时间。经过长期的发展,它已经被
学位
镁颗粒因其能量密度高、点火特性和燃烧效率好的优势,作为燃料或添加剂应用于爆震燃烧动力系统具有广阔的应用前景。本文借鉴国内外现有关于粉末燃料爆震燃烧模型及试验技术,针对镁粉-空气混合物爆震波的传播特性开展研究,建立了适用于描述镁粉-空气混合物爆震波传播过程的理论模型,开展了镁粉-空气混合物爆震可行性试验,分析了影响爆震波速度、稳定性、传播模式的主要因素,为下一步镁粉燃料应用于爆震动力系统提供理论和技
学位
仿生超疏水材料具有防水、防冰、自清洁等独特性能,在日常生活、工业设备及武器装备等领域具有广阔的应用前景。耐久性是制约其应用的关键难题。此外,赋予超疏水材料多功能特性是拓展其应用范畴的重要途径。本论文以提升超疏水材料的耐久性为主要目标,针对不同的应用背景,设计并制备了三种典型形态的超疏水材料——超疏水纳米涂层、超疏水碳纤维复合材料以及超疏水多孔材料。对这三种超疏水材料的组成和结构进行分析,对疏水性能
学位
雷达成像在诸多领域有着重要的应用价值。本文针对MIMO阵列雷达在近场条件下的成像应用,围绕系统参数与阵列设计、快速三维成像算法和栅旁瓣抑制算法三个方面展开研究。旨在为实际系统从参数设计、图像获取和图像质量提升等方面提供完善的解决方案。在系统参数与阵列设计方面,本文针对匹配滤波成像算法,首先建立了波数谱与系统参数和成像点展布函数之间的联系,推导了成像点展布函数的理论表达式。然后,基于波数谱分析了阵元
学位
随着5G和物联网时代的来临,大量高速率需求的无线通信设备正与雷达设备竞争频谱资源,对雷达服务造成严重的干扰并阻碍未来更高速率无线通信技术的发展。而雷达通信频谱共享技术则能从根本上解决这一问题。当前对该领域的研究分为两条主线——雷达通信共存技术与双功能一体化技术。以两条主线为脉络,论文对雷达通信频谱共享技术进行了研究。主要工作和创新点总结如下:一、针对频谱共享的不同实现方案,搭建了场景模型并分析了资
学位
目标微动是对目标或目标部件的微小运动状态的精细描述,微动特性细微而多变,需要敏锐地捕捉和识别。雷达目标微动特征研究是近十多年来国内外遥感学术界和工程界的一个研究热点,运用微多普勒信息进行目标分类、鉴别和识别被认为是极具潜力的技术手段。本文系统研究了雷达目标微动特征提取与参数估计技术,阐述其回波调制及特征分析,深入研究了基于时频分析和基于时频原子的两大类微动参数估计方法,并针对多分量微多普勒信号分解
学位
本文以霍尔推力器在深空探测等长周期空间任务中的应用为背景,针对霍尔推力器中等离子体与放电通道和内磁极的相互作用等问题,采用理论分析、光学诊断为主,辅以数值仿真的方法,开展霍尔推力器中交叉电场和磁场环境下等离子体与放电通道和内磁极相互作用的机理研究。设计了一台放电功率600 W的传统磁场位形霍尔推力器USHT-600,建立了一套完整的霍尔推力器实验测试系统,并实现了推力器稳定运行。磁场有限元三维数值
学位
图像分类是计算机视觉领域最基础的研究之一,在医疗图像分析、智能视频监控、无人车辆驾驶、个人信息管理等诸多领域具有广泛应用。过去八年中,深度学习研究取得显著进展,图像分类技术突飞猛进,可控条件下的图像分类问题已经基本趋于成熟,然而在很多实际应用中,由于受不确定的外界因素和成本因素的影响,很难获得大量包含丰富变化并且标记完整的训练数据,图像分类依然是一个很有挑战性的问题。本文针对非受控条件下机器学习面
学位
地球系统中的各个分量之间具有紧密的相互作用,其中大气和海洋是两个最重要也最活跃的分量系统。随着海气耦合模式在天气气候研究中的广泛应用,人们对海气耦合资料同化的需求随之兴起。基于耦合模式框架,耦合资料同化可将多个分量中的观测信息吸收到耦合系统中,并允许观测信息在不同分量间进行传递和交换,因而理论上能够为耦合模式提供更加平衡和协调的耦合状态估计。耦合资料同化一般可分为弱耦合同化和强耦合同化,其中弱耦合
学位
波达方向(Direction of Arrival,DOA)估计是阵列信号处理领域的核心问题之一,在雷达、导航、数字通信、目标检测等领域都有着广泛而重要的应用。均匀线性阵列拥有规则化的阵列结构,与其匹配的DOA估计算法得到了广泛的研究,并形成了相对成熟的技术。但阵列孔径与阵列自由度受限于实际阵元的数量。基于均匀线性阵列的DOA估计算法需要通过增加实际阵元数量来提升阵列自由度,并提高精度和分辨率。近
学位