基于贝叶斯决策理论的自动聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:chenghongminghao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种无监督的学习方法,对于探索数据的重要特征,揭示空间数据的分布规律以及预测数据对象的发展趋势有着重要的作用.在当今大数据时代的背景下,聚类分析获得了人们越来越多的关注,并在求解实际问题中出现了多种聚类算法.然而,现有的聚类算法大都需要人为预先地设置聚类参数,这些参数的设置不仅缺乏理论依据,给用户的使用带来不便,而且不合理的参数设置往往会对聚类结果产生较大的影响.基于上述原因,本文将贝叶斯决策理论的思想应用到了聚类分析中,构建了聚类方案的风险评估函数,并基于该函数在改进的K-means聚类算法的框架上提出了一个自动聚类算法.本文基于最大最小距离提出了一个关于K-means聚类算法的初始中心选择方法.基于最小距离选择对类内距离贡献最小的数据对象,基于最大距离选择与现有中心最不相似的数据对象.利用最大最小距离将所有的数据对象分配至最近的初始中心,并选择距离当前中心最远的数据对象作为下一个初始中心,直到选取的初始中心满足所需的数目为止.通过在人工数据集和UCI库中的真实数据集上进行实验仿真,表明了提出的方法能够有效地避免初始中心随机选择所产生的聚类结果的不确定性,提高了聚类结果的质量,有利于确定最终的聚类方案.本文基于贝叶斯决策理论提出了一个自动聚类算法.本文将贝叶斯决策理论中单一的研究对象拓展为一个对象组,通过对所有对象组聚类状态的分析来实现对整个聚类方案的分析,构建了聚类方案的风险评估函数.进而基于构建的风险评估函数提出了一个自动聚类算法.该算法采用对数据集不断进行裂变的方式来寻找良好的聚类方案.在每次裂变中,提出的算法利用最大最小距离选择相应数目的初始中心进行K-means聚类来获取相应方案,并利用构建的风险评估函数对获得的方案进行风险评估,根据风险大小的变化情况选择合理的聚类数目,从而自动地确定最终的聚类方案.本文分别在人工数据集和UCI库中的真实数据集上进行了实验仿真,结果表明,提出的方法在无人为预设参数的情况下也能获得良好的聚类结果,确定合理的聚类方案.
其他文献
熊熊是一只纯白色的萨莫耶斯犬。它的毛又长又密,加上长得肥,从远处看简直就是个“大雪球”。它出生才6个月,就已和成年狼狗差不多大了。 熊熊永远是快乐的,我真弄不明白这是
居民收支数据是国家政策决策、企业生产决策、居民生活决策的重要依据,其数据质量至关重要。然而,目前关于居民收支数据质量评估的研究有限,多为准确性和定性分析,有待拓展;
人类在和自然界的斗争中,在相互交流的需要下,逐渐产生了文学和艺术。在人们改变自身的栖居环境的过程中,则形成了环境艺术。而在环境艺术的发展过程中文学对它产生了巨大的
对企业的电力系统来说,功率因数的高低是关系到电能质量和电网安全、经济运行的一个重要问题,应予以充分重视。本文结合了本厂实际情况,对实现节能降损工作的重要举措——提
车型车辆规划问题是指将货物从仓库点配送至各货物需求点时,如何选择各车型的车辆组合问题。当前多车型车辆规划问题的研究多以单一车型为主,基于装载率优先进行车辆规划,而
在高等艺术院校的整顿与改革的进程中,在加强教学建设,不断提高教学质量的实践中,抓好教育思想、文艺思想的整顿与建设,是极为重要的一环。这是端正课程的思想政治方向、提高
环境污染和破坏以及严重缺乏的清洁和自然能源是目前全球范围内面临的严重挑战,研究绿色的、可持续发展的新型环境及能源材料和技术是当今最重要的课题之一。二氧化钛(TiO2)由于其化学稳定性、无毒无害、高反应活性以及低廉的价格等一系列优点,在环境污染治理及清洁能源领域具有重要应用。但由于其禁带宽度较宽(Eg= 3.2 eV),只能吸收波长小于387nm的紫外光,因此对太阳光的利用效率很低,且TiO2在光照
一种基于TSMC0.18μmCMOS工艺的5.1GHz频率下的CMOS低噪声放大器。采用源极电感负反馈共源共栅电路结构,使放大器具有较高的增益和反相隔离度,保证较高的品质因数和信噪比。利用A
基于精神的远景激励具有纯物质激励无法比拟的作用。组织必须不断重塑远景激励 ,使员工时时具有参与感 ,逐渐具有未来的安全感 ,经常感觉到进步充实 ,充分体验精神上的愉悦自