论文部分内容阅读
在数据激增的大数据时代,数据挖掘技术正在各行各业中扮演着重要的角色。聚类分析和关联分析是数据挖掘领域中重要的研究课题。聚类分析旨在挖掘出数据中潜在的簇结构,关联分析旨在从数据中发现有意义的关联。传统的聚类分析和关联分析是挖掘数据中所有模式的全局分析技术。当用户只对特定对象感兴趣时,只需要挖掘与给定对象相关的模式。此外,现实中,需要分析的数据是海量的。海量数据的全局信息可能无法获得或者需要很大代价才能获得。当全局信息不完整时,由全局分析技术挖掘出的模式可能不准确。基于此,从局部角度挖掘模式的技术应运而生,如局部社区发现。
本文对全局数据聚类和局部模式挖掘进行研究。具体地,本文的主要研究内容及创新之处总结如下:
1)针对密度峰聚类算法不能有效地处理簇内的密度峰距离远、相邻簇的密度峰距离近等情形,提出了密度峰聚类算法的两个改进算法。第一个改进算法首先使用密度峰聚类算法对数据进行聚类得到初始划分,然后采用相异度来识别和处理被错误划分的簇,其中相异度是基于共享最近邻和传递闭包来计算的。第二个改进算法是通过结合相异度和距离为每个点准确地发现距其最近且密度更大的点。实验结果表明,在大部分数据集上,两个改进算法优于密度峰聚类算法。
2)针对密度峰聚类算法的改进版本没有提供方法设置密度峰聚类算法的参数或者引入了新参数的情况,提出了基于显著密度峰的聚类算法,并提供了一个选择算法参数的方法。基于显著密度峰的聚类算法的思想是将点分成多个潜在的簇,而后合并密度峰不显著的簇以获取准确的聚类结果。在低维和高维数据集上的实验结果表明,基于显著密度峰的聚类算法非常具有竞争力,且选择参数的方法能够为算法设置合适的参数。
3)提出了一个简洁有效的局部重叠社区发现框架。该框架包含三个主要步骤。首先,粗略地发现与给定节点可能在同一个社区的节点,即候选节点。然后,从候选节点中选择代表性节点。最后,检测这些代表性节点所在的社区。进一步,本文给出了该框架的多种实现方式。具体地,通过三个构造候选节点的方法、一个从候选节点中选择代表性节点的方法和两个局部社区发现算法来实现该框架。实验结果表明,在大多数情况下,该框架的实现版本优于对比算法。
4)关于购物篮分析的研究主要是从全局角度挖掘所有模式或与给定项直接相关的模式,从局部角度挖掘与给定项相关的模式还没有引起关注。为此,本文提出了局部依赖项集的概念,并给出了局部依赖项集的挖掘框架。该框架有两个迭代执行的步骤:一个是扩展局部依赖项集,另一个是更新局部产品网络。进一步,本文通过三个依赖关系指标和一个局部社区发现算法实现了该框架。实验结果表明,购物篮数据集上的局部依赖项集蕴含的实际意义与顾客的购买习惯相符。
5)基于社会学中领导者和追随者的关系,提出了追随者的形式化定义,并提出了一个追随集搜索算法以查找给定对象的追随者构成的集合,即追随集。进一步,本文将追随集应用于购物篮数据和推荐系统算法中。实验结果表明,在购物篮数据集上获得的追随集的真实含义是合理的,且利用追随集的推荐系统算法优于原推荐系统算法,也说明追随集有潜在的应用前景。
本文对全局数据聚类和局部模式挖掘展开研究,对聚类分析、社区发现、关联分析和追随关系的相关算法及应用研究具有参考价值。
本文对全局数据聚类和局部模式挖掘进行研究。具体地,本文的主要研究内容及创新之处总结如下:
1)针对密度峰聚类算法不能有效地处理簇内的密度峰距离远、相邻簇的密度峰距离近等情形,提出了密度峰聚类算法的两个改进算法。第一个改进算法首先使用密度峰聚类算法对数据进行聚类得到初始划分,然后采用相异度来识别和处理被错误划分的簇,其中相异度是基于共享最近邻和传递闭包来计算的。第二个改进算法是通过结合相异度和距离为每个点准确地发现距其最近且密度更大的点。实验结果表明,在大部分数据集上,两个改进算法优于密度峰聚类算法。
2)针对密度峰聚类算法的改进版本没有提供方法设置密度峰聚类算法的参数或者引入了新参数的情况,提出了基于显著密度峰的聚类算法,并提供了一个选择算法参数的方法。基于显著密度峰的聚类算法的思想是将点分成多个潜在的簇,而后合并密度峰不显著的簇以获取准确的聚类结果。在低维和高维数据集上的实验结果表明,基于显著密度峰的聚类算法非常具有竞争力,且选择参数的方法能够为算法设置合适的参数。
3)提出了一个简洁有效的局部重叠社区发现框架。该框架包含三个主要步骤。首先,粗略地发现与给定节点可能在同一个社区的节点,即候选节点。然后,从候选节点中选择代表性节点。最后,检测这些代表性节点所在的社区。进一步,本文给出了该框架的多种实现方式。具体地,通过三个构造候选节点的方法、一个从候选节点中选择代表性节点的方法和两个局部社区发现算法来实现该框架。实验结果表明,在大多数情况下,该框架的实现版本优于对比算法。
4)关于购物篮分析的研究主要是从全局角度挖掘所有模式或与给定项直接相关的模式,从局部角度挖掘与给定项相关的模式还没有引起关注。为此,本文提出了局部依赖项集的概念,并给出了局部依赖项集的挖掘框架。该框架有两个迭代执行的步骤:一个是扩展局部依赖项集,另一个是更新局部产品网络。进一步,本文通过三个依赖关系指标和一个局部社区发现算法实现了该框架。实验结果表明,购物篮数据集上的局部依赖项集蕴含的实际意义与顾客的购买习惯相符。
5)基于社会学中领导者和追随者的关系,提出了追随者的形式化定义,并提出了一个追随集搜索算法以查找给定对象的追随者构成的集合,即追随集。进一步,本文将追随集应用于购物篮数据和推荐系统算法中。实验结果表明,在购物篮数据集上获得的追随集的真实含义是合理的,且利用追随集的推荐系统算法优于原推荐系统算法,也说明追随集有潜在的应用前景。
本文对全局数据聚类和局部模式挖掘展开研究,对聚类分析、社区发现、关联分析和追随关系的相关算法及应用研究具有参考价值。