基于大数据的聚类算法研究及应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:lwl45789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究k-means聚类算法及其应用。在大数据背景下,传统聚类分析算法的局限性已日益凸显,其中最明显的就是传统聚类算法对于小规模简单数据集执行效率高且聚类结果良好,但面对大规模高维数据集,传统k-means算法就会出现诸如效率低下、准确率降低等缺点,而且k-means算法易受初始中心和异常数据的影响,影响聚类准确性。针对以上问题,本文对面向大规模高维数据的k-means聚类分析算法进行了研究分析并进行改进,提高其在大规模高维数据集上的执行效率和准确度。本文的研究工作主要体现在以下三方面。第一,将基于信息熵的核主成分分析法与k-means算法相结合,根据属性的信息熵值对数据属性进行初步筛选,根据规定的阈值去除信息量小的属性,减少冗余属性,然后对提取出的属性进行核主成分分析,从而实现对数据的降维,最后在降维后的数据上实行k-means算法,这样就减少了聚类的计算量,提高了聚类的计算效率。第二,本文针对k-means算法随机选择初始聚类中心易出现聚类结果不稳定的情况,首先对数据集进行简单随机抽样,获得与原始数据集分布基本一致的少量样本数据集,并根据抽样样本空间分布的紧密度程度,利用最小方差优化来实现k-means算法初始聚类中心的选取,减少异常点等不确定因素对初始聚类中心带来的不良影响。其次为了克服聚类计算过程中样本数据不同属性对聚类结果的影响程度,引入熵值法来计算属性权重,从而提出基于优化初始聚类中心的加权k-means算法来提高聚类精度,并通过数值实验验证了算法的可行性和有效性。第三,本文将基于优化初始聚类中心的加权k-means算法应用在航空客户细分研究领域,通过数值试验进一步验证了算法的可行性和有效性。最后对本论文的主要工作和不足之处进行了总结,并提出了以后的研究的思路。
其他文献
偏微分方程理论是数学研究的重要分支之一,而且在数学物理及其他众多学科之中具有广泛的应用背景。本文主要研究了几类非局部偏微分方程解的渐近性态及其应用。  首先,我们介
随机森林是以决策树作为基分类器的集成分类算法,它是将Bagging算法与随机子空间结合起来进行分类的方法,广泛应用于社会生活的诸多领域来解决各种分类问题。虽然许多学者对
部分线性回归模型是参数回归模型和非参数回归模型的结合,参数部分可避免维数灾难和提高非参数回归的解释,非参数部分保持了模型的灵活性,因此在描述实际问题时更具有灵活性和解
近年来,随着计算机网络技术的发展,许多软件系统开始在Internet上部署和运行。同时这些系统运行的复杂性和规模也在逐渐增加,呈现出很多新的形态和特点。如何在Internet这样一个
本文要研究的是重尾相依条件下风险模型的大偏差问题.众所周知,在金融保险业中,目前更重视的对象是极端事件.因为这些重大事件不经常发生,可是一旦发生,将会带来巨大损失,导致大索赔额的发生,从而给保险业务带来重大风险.在保险风险理论中,各种破产理论的渐进性的研究与极限理论的大偏差有着密切的关系,故大偏差理论的研究就成为保险公司和广大学者共同关注的重要问题之一.大偏差理论的研究起源于20世纪30年代,一直
本文最主要工作是基于部件“修旧不如新”的条件,研究k/n(G)系统的定数维修模型。   首先,本文在一般定数维修模型下,设定部件“修旧不如新”,以可靠度和维修度服从指数分布为