高维混合类型数据聚类算法研究

被引量 : 0次 | 上传用户:guoxuemei123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在很多领域中,用于数据挖掘的数据集通常具有较高的维度。现有大多数经典聚类算法在较低维度运行时效果很好,但是,随着维度的增加,性能和效率就会明显的下降,因为算法的复杂度随着数据集维数的增加而成指数级增长;另一方面,目前的聚类算法大都是处理数值型的数据,对于混合类型数据的处理效果往往不佳,因此,亟需寻找一种新的有效的聚类算法。然而国内外对适用于高维混合类型数据集的聚类算法的研究非常匮乏,为了解决这种高维混合类型数据集的聚类问题,必须从理论上及算法上对聚类算法进行研究。为了研究高维混合类型数据的聚类问题,首先,对数据对象间的最大距离和平均距离随维数增加的变化进行了实验,得出了变化趋势:当数据集的维数小于30的时候,最大距离和平均距离增加的比较快;当数据集的维数大于30的时候,最大距离和平均距离增加的比较慢,甚至趋向于直线,曲线有一个拐点,即维数=30。最大距离和平均距离随维数的增加而增大表明数据对象间的距离随维数的增加而增大。其次,对聚类算法的聚类精度随数据维数增加的变化进行了实验,得出了维数对聚类算法精度的影响:当数据集的维数小于30的时候,聚类算法的性能很好,当数据集的维数大于30的时候,聚类算法的精度随维数的增加而降低。实验结果表明:当数据集的维数小于30的时候,像K-means和层次聚类算法这种基于距离的聚类算法是有效的,但是当维数大于30的时候它们的聚类结果很不理想。再次,提出了一种新方法把混合类型数据里的非数值属性的值转化成数值型,使得K-means、层次聚类、基于密度和自适应密度可达聚类算法(ClusteringAlgorithm Based on Density and Density reachable, CADD)等聚类算法能够对混合类型的数据进行聚类。实验结果证明,此方法能有效地使聚类算法对混合类型的数据进行聚类,尤其是CADD的聚类效果更好。最后,对基于密度和自适应密度可达聚类算法(Clustering Algorithm Based onDensity and Density reachable, CADD)的相异度公式进行了改进:利用复相关系数的倒数作为权值为相异度公式加权。实验结果证明,改进后的算法能够有效处理高维数据。另外,将复相关系数的倒数赋权法作为一种特征选择方法为数据集降维,并验证了此方法的有效性。
其他文献
高血压是临床上的常见病及高发病,是导致心脑血管事件的独立危险因素,血压控制达标对于降低心脑血管事件具有重要意义[1]。高血压是一种需终身治疗的疾病,其防治从医院走进社区
光学负反馈系统是将负反馈的概念从电学中引入到光学中的光学信息处理技术,也是一种将负反馈的概念从一维扩展至二维的创新性的尝试。与传统的自适应光学系统不同的是,光学负反
论文研究了微波速调管圆柱同轴谐振腔高阶横磁TM模式的特性,通过调整腔内漂移管数目、位置和尺寸等措施,有效地抑制了模式的旋转,改进了谐振腔内电磁场场分布的圆周对称性。设计
本文立足于贵州省旅游饭店行业发展现状,通过对贵州省饭店行业进行SWOT分析,寻求能切实提高贵州省饭店行业水平的改进途径,并结合近年来贵州旅游市场的新动态,提出发展特色化
【目的】分析电子射野影像系统(EPID)在鼻咽癌放射治疗中的临床应用价值。【方法】选取适形放疗的鼻咽癌患者30例,每拍一次电子射野影像片(EPI),拍摄正位片(机架角为0°)和侧位片
中级阶段的汉语阅读是连接初级阶段和高级阶段的桥梁。经过初级阶段字词的掌握及基本阅读技能的习得,中级汉语阅读阶段学生需要掌握更多的阅读技能,进行更高强度的阅读速度以及
新一轮集体林权制度改革后,集体林地划分细碎、林地资源浪费严重、森林生态依然脆弱。要解决集体林地资源利用低效和森林生态系统服务功能不强的问题,需要从制度层面上进一步
本文在有效质量近似下,研究了球形量子点量子阱结构中的束缚极化子,共分两个部分:第一部分,简要综述了关于量子点量子阱结构的特点,以及该结构中的电子态、杂质态和电子-声子
干旱是一种常见的自然灾害,严重影响着我国的农业生产,而河南省的春旱发生最为频繁。因此,以河南省为研究区,在分析河南省春季归一化植被指数(NDVI)、增强型植被指数(EVI)以
图像压缩是数字图像处理的一项重要技术。本文研究基于统计特性的三种熵编码图像压缩编码方法—香农编码、香农-弗诺编码和哈夫曼编码。并以C#为工具,对三种编码方法进行实验