基于密度峰算法的不完整数据和异质社区挖掘

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:chier00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
密度聚类被广泛用于模式识别、信息检索、图像分析、复杂网络分析等众多领域来识别真实世界数据集的隐藏结构。目前的密度峰算法往往只能处理结构化的完整数据,很多情况下表现不佳。其一,现实世界中的数据往往存在缺失或错误值,对于这样的不完整数据集,目前的处理方法是进行数据插补,然后采用传统聚类方法进行处理,这样导致精度下降,并且插补后的点的‘聚集现象’可能导致密度峰聚类失效。其二,对于更常见的半结构化数据,往往建模为复杂网络。社区挖掘是一种发现复杂网络隐藏结构和功能的重要技术,采用聚类算法来处理社区挖掘问题的做法由来已久。目前社区挖掘研究主要集中在同质网络,异质网络研究较少。本论文将密度峰聚类算法与以上两种问题场景相结合,研究基于密度峰算法的不完整数据聚类和异质网络社区挖掘。本文主要贡献包括以下几个方面:·通过实验验证分析密度峰聚类算法的缺陷,研究了采用密度峰算法解决不完整数据聚类的难点,以及采用密度峰算法解决异质信息网络社区挖掘的难点。·针对不完整数据场景,本文发现了被插补点的‘聚集现象’,即被插补点的聚集将影响密度峰算法的决策,误导算法选择错误的聚类中心,从而导致聚类效果差。本文提出了将聚类与分类相结合解决聚类问题的思想,基于此思想设计了DPC-INCOM算法,擅长处理任意形状的不完整数据集聚类,在九个基准数据集上的实验表明,DPC-INCOM算法聚类表现更稳定,算法精度比基于插补的算法提高了至多达39.3%。·针对异质网络社区挖掘,已经有文献将密度峰算法与同质网络结合,提出的算法比其他同质图社区挖掘算法更具优势。本文将密度峰算法与异质网络社区挖掘结合,以期获得同样优势,我们提出了DPC-HIN算法,设计了基于加权元路径的节点相似性计算方法,通过实验证明了多元路径的优势,设计了异质网络中的局部密度和最小距离计算方法,通过社区合并和邻居向量重新调整部分节点的社区标签,进一步提高社区挖掘质量。在四个真实异质信息网络数据集上的实验结果证明了DPC-HIN算法的有效性。
其他文献
文档级情感分类作为自然语言处理领域内的重要任务,一直以来广受关注。而得益于互联网技术的发展,用户在网络上发表的文本不断积累,为相关研究提供了扎实的数据基础。随着设备算力的提升以及可多层堆叠的Transformer结构的提出,一大批预训练语言模型在近些年间开始涌现。这些模型通常具有层次深、参数多的特点,并在大规模语料上提前进行了预训练,因此一经提出就在各种文本相关任务中达到了卓越的性能。近年来,如何
学位
在互联网深刻影响人们生产、生活的时代背景下,网络素养成为公民在网络空间生存发展的必备素养。随着网络空间与现实社会的深入融合,互联网在国家间日渐激烈的竞争中,展示出“兵家必争之地”的态势。2014年,党和政府在掌握时代发展大势和国际局势的基础上,结合自身发展要求和发展目标正式提出了“网络强国”概念。新的发展目标势必带来新的发展要求,如何在新的要求下提升公民网络素养,助力“网络强国”的实现成为学界需要
学位
甲烷无氧偶联(NOCM)是催化领域的重要课题,为甲烷的直接利用开辟了新途径,因其碳原子利用率高、工艺流程短而倍受关注。目前,NOCM反应仍面临着甲烷转化率低、反应温度高、催化剂稳定性差等问题。近年来,熔融液态金属催化剂因其优异的抗积炭性能在多相催化领域引起广泛关注。体相金属W具有高活化甲烷能力但易积炭,低熔点In可大幅减低W的熔点而使其以单原子和/或原子簇的形态存在,进而有可能构建低温高活性、低生
学位
农村居民点是一定规模农村人口根据自然、社会、经济条件及血缘关系集中进行生产生活的场所,其形态受自然、经济社会和政策调控综合影响。伴随新农村建设、新型城镇化和城乡统筹等重大战略的深入推进,中国农村居民点正在不断转型与重构,出现了乡村人口流失的同时农村居民点用地面积反而不断增多的悖象。建设用地扩张势必导致乡村生产空间与生态空间遭受挤压,加剧乡村功能空间结构失衡,引发三生功能产生矛盾冲突,带来生态环境退
学位
在高维情形下关于多元正态分布协方差矩阵的估计一直以来都是统计学中的基础问题。在诸如异常心电图分析这样的实际问题中,我们得到的高维数据只有几个分量是脉冲的,其余分量全是稀疏的。本文将此情形下所对应的协方差矩阵称为Sparse-Spike协方差矩阵。在高维数据处理问题中我们得到的样本数常远小于矩阵维数,本文将小样本情形下对于协方差矩阵的估计和特征提取称为它的低秩学习。本文所研究的Sparse-Spik
学位
商圈是一个城市的商业招牌,也在一定程度上反映了当地经济发展的水平。商圈分析可以帮助国家和地方政府了解商圈发展态势,为制定商圈发展规划和政策导向提供科学依据。另外,商圈分析还能为经营者选择经营场所、制定和调整经营方针和策略提供依据。基于以上背景,本文以上海市商圈为研究主体,基于银联数据,采用统计学方法,对商圈客户转移消费问题进行了深入分析。由于商圈之间的客户转移数量是一个矩阵数据时间序列,并且某些商
学位
相较于单臂机器人,双臂机器人拥有冗余的自由度,能够执行更灵巧的操作和完成更复杂的协同任务。双臂机器人在进行灵巧操作时,末端执行器之间的距离往往非常接近,在对双臂协作机器人进行轨迹规划时,要求提供十分精确的碰撞检测算法,以保证机械臂的安全。针对上述问题,本文对面向双臂协作机器人的连续碰撞检测算法进行研究,主要研究内容为:·提出了一种面向双臂协作机器人灵巧操作的连续碰撞检测算法,该算法基于泰勒模型在机
学位
近年来,深度神经网络在许多分类任务中已经达到了很高的准确率,这些任务包括语音识别,目标检测以及图片分类等。尽管深度神经网络对随机的噪声是具有鲁棒性,但是当对神经网络输入添加一些不能被人眼察觉的特殊扰动会使得深度神经网络模型输出错误的预测值。通常把这些添加了特殊扰动的样本称作对抗样本。为了使得深度神经网络的鲁棒性提升,对于深度神经网络防御对抗样本的方法进行了研究。在对抗防御的方法中包括三种:梯度遮蔽
学位
随着信息技术的发展,图作为一种便捷且有效的建模方式,被广泛用于表示复杂的结构化数据。异常节点检测是图分析领域中的重要课题,在诸如社交网络的恶意账户检测,金融网络的欺诈检测等现实生活中有着广泛的应用。图异常节点检测场景的数据往往具有复杂的拓扑结构关系,传统领域的异常检测方法难以处理复杂的关系,此外,信息多元,标签不平衡等特点也造成现有的异常节点检测算法在性能上不尽如意,影响异常检测任务的表现。为了高
学位
现代人们大部分时间都在室内环境中度过,例如家庭、办公室、购物中心、大学、图书馆和机场。然而,很多现有的基于位置的服务都只针对室外空间而设计,这主要是因为全球定位系统等定位技术无法准确识别室内场馆的位置。然而近年来室内定位技术的突破开始逐渐克服了这一难题,为研究机构、政府机构、技术巨头和有进取心的初创企业带来了巨大的未来机会——可以充分挖掘室内基于位置的服务的潜力。因此,室内数据管理在过去几年中获得
学位