全局数据聚类及局部模式挖掘算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lsy0718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据激增的大数据时代,数据挖掘技术正在各行各业中扮演着重要的角色。聚类分析和关联分析是数据挖掘领域中重要的研究课题。聚类分析旨在挖掘出数据中潜在的簇结构,关联分析旨在从数据中发现有意义的关联。传统的聚类分析和关联分析是挖掘数据中所有模式的全局分析技术。当用户只对特定对象感兴趣时,只需要挖掘与给定对象相关的模式。此外,现实中,需要分析的数据是海量的。海量数据的全局信息可能无法获得或者需要很大代价才能获得。当全局信息不完整时,由全局分析技术挖掘出的模式可能不准确。基于此,从局部角度挖掘模式的技术应运而生,如局部社区发现。
  本文对全局数据聚类和局部模式挖掘进行研究。具体地,本文的主要研究内容及创新之处总结如下:
  1)针对密度峰聚类算法不能有效地处理簇内的密度峰距离远、相邻簇的密度峰距离近等情形,提出了密度峰聚类算法的两个改进算法。第一个改进算法首先使用密度峰聚类算法对数据进行聚类得到初始划分,然后采用相异度来识别和处理被错误划分的簇,其中相异度是基于共享最近邻和传递闭包来计算的。第二个改进算法是通过结合相异度和距离为每个点准确地发现距其最近且密度更大的点。实验结果表明,在大部分数据集上,两个改进算法优于密度峰聚类算法。
  2)针对密度峰聚类算法的改进版本没有提供方法设置密度峰聚类算法的参数或者引入了新参数的情况,提出了基于显著密度峰的聚类算法,并提供了一个选择算法参数的方法。基于显著密度峰的聚类算法的思想是将点分成多个潜在的簇,而后合并密度峰不显著的簇以获取准确的聚类结果。在低维和高维数据集上的实验结果表明,基于显著密度峰的聚类算法非常具有竞争力,且选择参数的方法能够为算法设置合适的参数。
  3)提出了一个简洁有效的局部重叠社区发现框架。该框架包含三个主要步骤。首先,粗略地发现与给定节点可能在同一个社区的节点,即候选节点。然后,从候选节点中选择代表性节点。最后,检测这些代表性节点所在的社区。进一步,本文给出了该框架的多种实现方式。具体地,通过三个构造候选节点的方法、一个从候选节点中选择代表性节点的方法和两个局部社区发现算法来实现该框架。实验结果表明,在大多数情况下,该框架的实现版本优于对比算法。
  4)关于购物篮分析的研究主要是从全局角度挖掘所有模式或与给定项直接相关的模式,从局部角度挖掘与给定项相关的模式还没有引起关注。为此,本文提出了局部依赖项集的概念,并给出了局部依赖项集的挖掘框架。该框架有两个迭代执行的步骤:一个是扩展局部依赖项集,另一个是更新局部产品网络。进一步,本文通过三个依赖关系指标和一个局部社区发现算法实现了该框架。实验结果表明,购物篮数据集上的局部依赖项集蕴含的实际意义与顾客的购买习惯相符。
  5)基于社会学中领导者和追随者的关系,提出了追随者的形式化定义,并提出了一个追随集搜索算法以查找给定对象的追随者构成的集合,即追随集。进一步,本文将追随集应用于购物篮数据和推荐系统算法中。实验结果表明,在购物篮数据集上获得的追随集的真实含义是合理的,且利用追随集的推荐系统算法优于原推荐系统算法,也说明追随集有潜在的应用前景。
  本文对全局数据聚类和局部模式挖掘展开研究,对聚类分析、社区发现、关联分析和追随关系的相关算法及应用研究具有参考价值。
其他文献
该论文主要研究配电网规划,包括配网网架规划和配网重构,以及为之服务的负荷预测.配网网架规划又包括水平年网架规划和多阶段网架规划.对负荷预测,主要介绍了负荷预测的常用方法和各种方法的优缺点,并提出改进的人工神经元网络法用于负荷预测,以及算法实现和算例分析.对配网网架规划和配网重构,在综合各种方法的优缺点的基础上,提出了改进的多种群遗传算法用于配网网架规划和配网重构.并针对配网的特殊约束条件,提出了行
近年来,随着机器学习技术的兴起尤其是深度学习技术的蓬勃发展,人类社会迎来了人工智能的黄金时代。在新时代背景下,大量卫生保健数据加速创建,传统医疗正逐渐向智能模式转变。如何从海量电子病历中获得有价值的医学信息,是智慧医疗发展的需求,也是目前构建智慧医疗体系所面临的重大挑战。  相关实验研究表明,大量的准确标注的训练样本是使用机器学习方法获得准确率高、泛化性能好的模型的基础。然而,在医疗领域,对于某些
学位
随着各种数据密集型应用(如智能终端、多媒体、自主交通和虚拟现实)的兴起,第五代(the Fifth Generation,5G)移动通信系统的主要需求是增加容量、提高数据速率、减少延迟和改进服务质量。针对上述需求,迎接未来的挑战,一些关键的技术被提出,如非正交多址技术、物理层传输技术、大规模天线和毫米波。其中,速率分割多址技术(Rate Splitting Multiple Access,RSMA
多智能体路径规划问题是为多个智能体在地图上寻找它们从各自不同的起始位置到目标位置的无冲突路径集合的问题,属于NP-hard问题。该问题作为人工智能领域的重要问题之一,在物流仓储、交通控制、机器人等领域中也有非常多的应用。在研究该问题的历程中,产生了次维扩展、代价增长树路径搜索和基于冲突的路径搜索等求解方法。次维扩展作为其中表现最好的方法之一,是一种具备完整性和最优性的多智能体路径规划问题求解框架。
学位
网络在生活和生产中无处不在,例如社交网络,而网络表示学习(也称网络嵌入)是一种对网络型数据非常有效的处理方法,其旨在为网络中的每个节点都学习一个低维的向量表示。在现实世界中许多网络都是动态的不断变化的,然而大部分现有的算法只能对静态的网络取得较好的效果。动态网络通常可以分成两类:一种是随着时间推移其拓扑图的节点和边会增加或者减少;第二类则是网络的边会包含时间信息,如电话网络。动态网络表示学习算法大
学位
近年来,基于LSM-tree的键值(key-value)存储系统在数据存储领域发挥着重要作用,作为后端存储引擎被广泛部署在数据密集型应用场景下。然而,LSM-tree层次化的、高度有序的数据组织结构需要通过大量的数据合并操作维护,引起了严重的写放大问题。最近的研究工作针对系统架构提出了几类优化方案,虽然缓解了写放大问题,但是不同程度地牺牲了查询性能和空间利用率。为了获得均衡的高性能表现,本文通过分
随着现代城市的迅速发展,大型城市综合体内部及周边巨大的人流量为公共安全带来了严峻的挑战。为了应对这一挑战,需要针对性的人流管理措施,而人流统计和预测则是人流管理的数据基础。  由于人流在时间和空间两个维度上的不确定性,以及缺失数据的存在,精确的人流预测一直是一个具有极高挑战性的任务。近年,已有一些针对城市范围的人流密度预测算法,但这些模型均没有考虑建筑物内部,如城市综合体内的人流模式。  本论文的
随着智能移动设备的广泛使用,一种新的众包形式-空间众包应运而生。空间众包要求工作者到达指定任务位置才能执行任务。本文提出了一种新的空间众包形式,称为时间连续型空间众包。时间连续型空间众包与以往空间众包的不同在于,时间连续型空间众包任务需要长时间的任务周期才能完成任务。时间连续型空间众包在实际生活中存在广泛应用,包括环境监测、交通检测等。  由于任务预算和可分配工作者数量有限,时间连续型空间众包任务
近年来,蓬勃发展的电子信息和网络技术给现代人们的各种日常生活工作方式带来了深刻的社会变革,人们愈发地倾向于以直观的图像和视频为媒介,来理解外部世界和表达自身。这种需求无疑催生了社交媒体平台的爆发式增长,海量的视频数据由这些平台得到分享和传播,并不断涌入我们的生活。在这种情况下,如何对海量的视频数据进行浓缩,抽取出其中的关键信息,从而帮助用户更快更准确地获取自己需要的视频内容,是当今计算机技术领域,
在过去十年中,得益于大规模并行计算架构的广泛部署,人们可利用的计算资源得到了极大提升。如今,在为复杂计算问题设计求解器时,设计并行求解机制以有效利用并行计算平台已变得越来越重要。然而,人工设计并行求解器仍然是一项艰巨的工作。作为一种新的并行求解器设计范式,面向并行启发式算法组的自动构建技术(Automatic Construction of Parallel Heuristic-algorithm