基于最小生成树的聚类分析方法研究

被引量 : 0次 | 上传用户:xinshuai99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)是当前国际上数据库技术和信息决策最前沿的研究领域之一,从多个学科汲取营养。聚类分析是数据挖掘里一个重要的研究方向,对其进行深入研究在理论基础和实际应用上都有重要价值。聚类分析方法已经经过了几十年的发展,期间研究人员都在尝试用不同的方法来处理聚类问题。在众多提出的方法里,最小生成树聚类算法是其中一种典型的方法。但是,现有的该类方法仍旧存在不足,这就要求对已有的聚类分析技术进行改进,提出一种新的聚类理论和方法。本文通过研究分析,首先在Prim和Kruskal最小生成树算法的基础上,构造一种新的最小生成树算法QMST(Quick Minimum Spanning Tree),该方法巧妙地将数据集分成上界、下界和临时数据集三部分,大幅度地降低所需处理的数据规模,能够快速地构造出最小生成树,所需时间优于Prim和Kruskal。同时,在处理高维数据集时,依据属性差异度原理,引入降维策略,使得QMST在构造高维数据集的最小生成树时依旧保持快速的特性。接下来,通过分析现有的最小生成树聚类算法,结合基于划分和基于密度的聚类思想,提出一种基于最小生成树的快速自适应聚类分析方法QSAK-MST(Quick Self-adaptive K-means–Minimum SpanningTree),该方法通过QMST快速地构造出数据集的最小生成树,同时不依赖参数选取,即事先无需进行参数设定,而是比较簇的紧凑度大小,使用分裂准则对生成树进行迭代分裂,自适应地产生初始聚类中心和初始簇,接着使用K-均值的核心思想,根据前阶段产生的初始聚类中心和初始簇,采用最小化平方误差函数,根据簇中对象的均值,将每个对象分配到最相似的簇,更新簇均值,重复这个过程,直到函数收敛或者达到设定的迭代次数上限。通过这一局部调整的过程,能够有效地缓解在分割最小生成树以及对高维数据进行降维处理所带来的误差,从而进一步地提高聚类结果的精度。QSAK-MST解决了事先需要设置参数的难题以及大幅度地降低了构造最小生成树需要耗费的时间,不仅提高了聚类速度而且改善了聚类准确度。同时,通过引入一种降维策略,使得该方法在处理高维数据时依旧保持高效性,并且尽可能地控制降维所带来的聚类误差,使得聚类准确率保持在一个可接受的范围内。最后,通过多个真实数据集将本方法和两种基于最小生成树的典型方法进行对比分析,实验结果表明该算法在聚类速度、聚类稳定度和聚类准确度方面具有更好的优越性,验证了算法的有效性。
其他文献
<正>如何解释生产自动化条件下的价值决定问题,对传统劳动价值论意义重大。笔者对经济学基础理论长期而独立的探索和研究,形成了四本专著。本文提出一个重要的创新性理论成果
进入二十一世纪,随着各种能源危机的爆发,随着各种环境问题日益的凸显,绿色建筑在全中国乃至全世界受到愈来愈多的关注,也展开了越来越频繁的探索。本论文在理论研究的基础上,对国
本文利用2005年和2006年度国有控股商业银行、股份制商业银行与地方城市商业银行三类商业银行的年报数据,研究了中国商业银行公司治理与绩效之间的关系,主要结论如下:第一,商
随着经济发展速度的加快,企业的内外部环境每时每刻都在发生变化,企业之间的竞争集中体现在人才的竞争上。企业需要结合自身的发展战略来安排组织的人力资源战略,制定合理的人力
近年来,房地产策划行业作为新兴行业之一在我国得到了极大的推广和发展。随着时代的进步和社会分工的逐渐细化,房地产策划行业在房地产发展过程中的作用越来越明显,已经成为了我
天津市水资源匮乏,地下水作为重要的水源长期以来被过量开采,引起了地下水位持续下降、地面沉降、地面裂缝、水质恶化、海咸水入侵等一系列的环境地质问题,究其原因主要是地下水
随着现代工业技术的发展,工程机械越来越趋向于高速、重载和大功率,对油封的密封性能要求也越来越高,而大多数油封失效是油封唇口摩擦生热所引起的高温导致的。油封唇口与旋转轴
日趋臻显的外向型、开放型经济发展特点和行业细分趋势等因素在很大程度上决定了我国区域排污权交易系统内不存在显著的产品竞争。现有的理论与实践表明,排污权交易体系中同
在种植碳汇林增加森林碳汇成为当前全球应对气候变化重要途径之一的大背景下,通过阐述广东省碳汇林的经营现状,根据碳汇林营造时期、经营时期以及后期市场交易的特点,将广东
我国低碳经济的发展研究是学术界关注的热点之一,论文在整理和吸收以往低碳经济研究成果的基础上,认真分析了我国低碳经济发展过程中存在的问题,深入挖掘其发展体系,从博弈论的角