有限高斯混合模型聚类算法的研究

来源 :兰州商学院 | 被引量 : 0次 | 上传用户:goonesownway
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析一直以来是统计学中一个重要的组成部分,伴随信息技术的快速发展,数据量的迅猛增加,聚类分析对于数据的处理和分析越来越重要。基于模型的聚类算法近年来得到了广泛的关注。它的主要思想是:假设数据服从某一个混合分布,每个类别可以用混合模型的分支去拟合,通过估计该混合模型的参数,然后判断数据属于哪一类别,进而完成聚类。而最为常用的是高斯混合模型。当高斯混合模型的阶数大于一并且为有限时,为有限高斯混合模型。其聚类过程对于模型参数的估计一般借助于EM算法。EM算法是缺失数据下的参数极大似然估计的迭代算法,它是一种常用的数据添加算法,其核心思想是通过利用已有的先验知识来迭代似然函数,让其收敛于某个最优值,通过利用EM算法可以极大的简化有限高斯混合模型聚类算法中参数估计的过程。本文总结了目前基于有限高斯混合模型聚类算法的研究现状,深入研究了有限高斯混合模型聚类算法和聚类过程中借助EM算法对参数进行估计的原理,结合目前在有限高斯混合模型聚类算法的研究方向,以有限高斯混合模型聚类算法中EM算法对初始化敏感、容易陷入局部最优和运行速度慢三个方面为切入点,提出相应的改进算法。一是提出一种简单、有效、计算量小的基于三分位数的EM算法初始化方法;二是在对于模型参数的估计提出Bootstrap-EM算法,避免EM算法陷入局部最优同时提高参数估计精度;三是将EM算法与PCA相结合,提出PCA-EM算法,可以有效的提高算法聚类精度和运行速度,解决了当数据集因为协方差奇异而导致EM算法无法进行迭代的问题。经过编程,在R软件中对以上所提出的算法利用UCI上的四个数据集进行了验证分析。结果表明,所提出的几种算法可以有效的解决有限高斯混合模型聚类算法过程中EM算法所存在的问题,并且提高了聚类结果的准确率。
其他文献
一山一宁以中国(元代)信使的身份赴日诏谕,然而日本"终未通元",并坚信一山来自"万人杰"的"宋地"。由一山政治身份的失效可知,当时日本视角下的"中国"面目与"中国"概念正在发
采用文献资料法、问卷调查法等对职业女性体育休闲方式现状进行研究。主要结论:职业女性对体育需求认知主要表现在身体需求上;参与体育活动的方式以家庭成员、朋友圈为主;参
期刊
韭菜田香附子是一种难以防除的杂草。本文选取了4种除草剂进行了韭菜田香附子杂草的防除筛选试验。试验结果表明所选的4种除草剂中,10%精喹禾灵乳油1000倍液对香附子地上部分
学前本科教育是培养学前教育师资的重要途径。本文通过对目前学前音乐教育存在问题的分析 ,研究学前音乐教育对师资培养的新要求 ,提出改进学前本科音乐教育的对策和建议。
有关研究表明,在107的循环周次或在其以上的超高周阶段,材料仍然有可能发生疲劳断裂。在实际应用中,很多动力机械的疲劳循环周次高达10t0周次。因此,研究工程材料在107以上超
研究了一类非线性级联切换系统的可靠控制问题,系统具有时滞和不确定结构.当执行器失效时,利用多Lyapunov函数以及平均驻留时间方法,设计状态反馈控制器,得到相应闭环系统的
<正>专题导读软件定义网络(SDN)是近年来网络通信领域最重要的创新之一。作为一种新型的网络构架,SDN通过将网络设备面与数据面分离开,从而实现网络流量的灵活控制,为核心网
期刊