论文部分内容阅读
本文主要研究k-means聚类算法及其应用。在大数据背景下,传统聚类分析算法的局限性已日益凸显,其中最明显的就是传统聚类算法对于小规模简单数据集执行效率高且聚类结果良好,但面对大规模高维数据集,传统k-means算法就会出现诸如效率低下、准确率降低等缺点,而且k-means算法易受初始中心和异常数据的影响,影响聚类准确性。针对以上问题,本文对面向大规模高维数据的k-means聚类分析算法进行了研究分析并进行改进,提高其在大规模高维数据集上的执行效率和准确度。本文的研究工作主要体现在以下三方面。第一,将基于信息熵的核主成分分析法与k-means算法相结合,根据属性的信息熵值对数据属性进行初步筛选,根据规定的阈值去除信息量小的属性,减少冗余属性,然后对提取出的属性进行核主成分分析,从而实现对数据的降维,最后在降维后的数据上实行k-means算法,这样就减少了聚类的计算量,提高了聚类的计算效率。第二,本文针对k-means算法随机选择初始聚类中心易出现聚类结果不稳定的情况,首先对数据集进行简单随机抽样,获得与原始数据集分布基本一致的少量样本数据集,并根据抽样样本空间分布的紧密度程度,利用最小方差优化来实现k-means算法初始聚类中心的选取,减少异常点等不确定因素对初始聚类中心带来的不良影响。其次为了克服聚类计算过程中样本数据不同属性对聚类结果的影响程度,引入熵值法来计算属性权重,从而提出基于优化初始聚类中心的加权k-means算法来提高聚类精度,并通过数值实验验证了算法的可行性和有效性。第三,本文将基于优化初始聚类中心的加权k-means算法应用在航空客户细分研究领域,通过数值试验进一步验证了算法的可行性和有效性。最后对本论文的主要工作和不足之处进行了总结,并提出了以后的研究的思路。