【摘 要】
:
子空间聚类算法能有效减少数据冗余和不相关属性对聚类过程的干扰,从而提高在高维数据集上的聚类效果。已有的子空间聚类算法主要强调在各个子空间中簇的发现,通常忽略了子空
论文部分内容阅读
子空间聚类算法能有效减少数据冗余和不相关属性对聚类过程的干扰,从而提高在高维数据集上的聚类效果。已有的子空间聚类算法主要强调在各个子空间中簇的发现,通常忽略了子空间的划分。高维数据中,子空间划分的正确与否,直接影响到高维数据聚类正确率的高低,因此想要提升高维数据的聚类准确率,就必须采用正确的子空间划分方法来对高维数据进行子空间划分。本论文提出了两种划分数据子空间的方法,第一种是基于最小冗余特征子集的子空间划分法,第二种是基于属性最大间隔的子空间划分法。基于最小冗余特征子集的子空间划分法是在K-means算法的基础上改进的,将计算数据特征变量间的互信息替换K-means算法中计算数据特征变量间的距离,根据数据特征变量间互信息值的大小来对数据进行子空间划分,用这种方法划分出来的子空间叫做最小冗余特征子集。基于属性最大间隔的子空间划分法是通过计算数据两两属性间的互信息,然后将属性间的互信息值归一化后构建一个特征矩阵。得到特征矩阵后,再利用网格划分法将特征矩阵划分成不同的子块,通过搜索子块中互信息的最大值得到数据集中两个属性变量之间的最大信息系数,最大信息系数体现了两个属性之间关联性的大小,关联性越大,属性间间隔越小,关联性越小,属性间间隔越大,因此在得到最大信息系数后,我们就可以利用最大间隔原理来对数据集进行子空间划分。最后,通过实验验证本论文提出的两种子空间划分方法的有效性,采用UCI和NIPS2003比赛等数据来进行实验,实验结果表明,在大多数数据上采用基于最小冗余特征子集法和属性最大间隔法对数据集进行子空间划分后得到比其他子空间聚类算法更好的聚类结果。
其他文献
宫颈癌是最常见的妇科恶性肿瘤。据世界范围的资料统计,每年全球大约有50万新发宫颈癌病例,其中85%新发病例在发展中国家。宫颈原位癌高发年龄为30~35岁,浸润癌为45~55岁,近年
目的:糖尿病(DM)是一组以长期高血糖为主要特征的代谢综合征,由胰岛素分泌和(或)作用缺陷所引起。长期碳水化合物以及脂肪、蛋白质代谢紊乱可引起多系统损害,导致眼、肾、神经、心脏
成本管理课题的研究一直以来备受关注,尤其对于房地产开发项目更是至关重要。随着我国社会和经济的快速发展,国家对于房地产成本调控与管理等一系列问题把关更为严格,管理房
目的:人脑胶质细胞瘤脑简称胶质瘤,是人类中枢神经系统中最常见的恶性肿瘤之一。由于它呈侵袭性生长,使得临床治疗困难,是导致病人死亡的主要原因。我国是胶质瘤的高发国家,每年
随着信息化时代的到来,越来越多的数字媒介和数字终端被用作记录与收发信息,数字图像是其中一种重要的记录方式。而视频又是多帧图像构成,所以这就给研究视频的动态特征赋予
随着网络技术、数据库技术、软件开发技术的迅速发展,医疗卫生行业正在逐步迈向信息化时代。近年来,各级医院相继上线运行了医院管理信息系统、电子病历系统、医生工作站系统、
通过对洛阳市2015~2017年可吸入颗粒物(PM10)进行统计分析,分析其时间特征,分别从年、季度、月3个时间维度来分析可吸入颗粒物PM10浓度的变化特征.研究结果显示,洛阳市PM10的
随着经济的发展,服务业也迅速发展,现在已经成为一个国家的国民经济的重要的组成部分,服务质量也越来越受到企业的关注,顾客在消费过程中也越来越看重企业的服务质量。由于服
随着社会经济的高速发展和人口的急剧增加,资源危机问题已经成为仅次于全球气候变暖的世界第二大环境问题,水资源紧缺是制约农业发展的主要障碍,发展节水灌溉是解决农业用水
天然生物组织大多具有独特而又高度有序的微结构和特殊的化学组成,从而表现出优异的力学性能。人类牙齿是一种典型的具有多级微结构的外骨骼生物组织,主要由牙釉质、牙本质和