基于信息熵的子空间聚类及离群点挖掘算法研究

被引量 : 0次 | 上传用户:fabiosyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点分析是重要的数据挖掘任务之一,旨在挖掘出数据集中潜在的异常数据模式或行为,它在一些大数据应用领域有着非常重要的意义。子空间聚类和离群点挖掘是大数据和高维数据集分析中的热点问题。本文深入分析了子空间聚类和子空间离群点检测的研究现状,针对已有的子空间聚类方法效率不高和可伸缩性差、子空间离群点检测算法性能不佳的问题,就子空间聚类和子空间离群点检测方法进行了深入研究。首先,对几种典型的子空间聚类算法和子空间离群点挖掘算法的优缺点进行了详尽的分析,并具体针对CMI方法存在子空间聚类效率低和最佳聚类子空间搜索结果不稳定且计算复杂的问题进行了改进,提出了基于累积全熵的子空间聚类算法。该算法是将累积全熵作为衡量子空间聚类优劣的指标来选择最佳聚类子空间。其次,综合分析了几种子空间离群点检测算法,针对CMI方法在离群点检测阶段采用LOF方法导致离群点检测效率低下的问题进行了改进,提出了基于信息熵增量的子空间离群点挖掘算法,在全体数据对象中利用去一划分信息熵增量的思想进行离群点检测。最后,在真实数据集和虚拟数据集上,通过与CMI方法的对比,分别验证了基于累积全熵的子空间聚类算法和基于信息熵增量的子空间离群点挖掘算法的有效性和可伸缩性。
其他文献
本项目采用沈阳空气动力研究所研发的航空并行CFD计算平台,进行标准明星并行评估计算。该软件可广泛应用于飞行器的亚、跨、超和高超音速的气动力学计算和一些特殊气体动力学
在低渗油气藏的开发开采中,水平井分段压裂技术应用较为广泛,近年来常用的水平井分段压裂技术是投球滑套配合可溶球的压裂工艺。由于可溶球投球前不能与水接触,目前还没有适
结合酒店一线大学生从业者学历层次与其职业社会地位落差大的特点,引入心理落差这一中介变量,运用SPSS20.0软件,通过分层相关分析法和回归分析法,进一步探讨身份认同影响工作
文章通过对高等教育管理学科发展困惑的历史回顾,从理论与实践结合的角度,分析高等教育管理案例对高等教育管理学科产生与发展的重要性,指出在高等教育管理中存在的'理论
咖啡是世界三大饮料之一,有醒神、利尿、健脾等功效。菠萝、芒果、香蕉是海南省主要的热带水果,含有丰富的维生素成分。本文主要研究了海南阿拉比卡咖啡豆的焙烤工艺、超微咖
我国中小私营企业在国民经济运行中发挥着越来越重要的作用,但其融资状况却不容乐观。由于融资渠道不畅,融资效率低下,融资困难已成为制约其发展的瓶颈。随着金融市场不断发展,一
早期教育和保育是儿童一生的奠基。早期教育和保育的质量不仅对儿童一生发展起着重要作用,同时亦关乎着社会的稳定、经济的发展。因此,追求卓越的早期教育质量已经成为世界各国
我国的陶瓷产量位居世界首位,但与西方发达国家相比,存在着能耗高、能源利用率低、污染严重等问题,阻碍了我国陶瓷行业的可持续发展。针对此现状,实现陶瓷生产过程的节能减排已迫
随着人机交互技术(HCI)的普及及兴起,动态手势识别技术越来越受到研究人员的重视,并逐渐成为人机交互领域的一项重要技术。研究动态手势识别技术,不仅在理论研究中占据重要地位,而
肝癌和胰腺癌均为临床上最常见的消化系统恶性肿瘤,它们的恶性程度高、发展进程快、转移性强、死亡率高。由于肝癌及胰腺癌发病初期症状隐匿、有效的早期检测方法匮乏,当患者