论文部分内容阅读
近年来,随着Internet的飞速发展和生活中信息化水平不断提高,数据资源呈爆炸式增长,导致获取目的信息困难,信息的利用率降低,而高维数据日益成为主流,所以在实际的聚类应用中,对高维数据聚类方法的研究有着越来越重要的意义。但高维数据本身独有的一些特点,使得高维数据挖掘变的非常困难,因此必须采用一些特殊的方法进行研究处理。本文研究聚类的对象是网页内容,是一种典型的高维聚类。从聚类的概念及高维数据的特点入手,围绕着高维空间相似性度量、权重表示和降低“噪音”特征属性影响这个三个问题,进行了研究和改进。由于文本数据的高维特征,适用于低维空间的相似度度量方法往往失效,对此本文采用一种适合文本数据高维和稀疏特征的Nsim()相似度度量方法。实验证明这种相似度度量方法在高维空间中,仍能具有较好的稳定性和分辨性。特征的权重表示形成空间向量模型是具有决定性作用,从而对聚类结果有很大影响。HTML文件的标签信息对于网页的类别归属比一般特征属性具有更重要的作用,据此,本文提出了一种适合网页的改进TF-IDF权重计算方法。K-means方法是一种典型的基于划分的快速聚类算法,传统K-means算法的k个簇中心点的初始选择是随机的,这就往往使得聚类的结果不稳定,聚类效果没有保证。本文对中心点的确定提出改进,通过最大最小规则计算中心点。为了使K-means算法能够降低网页内容中“噪音”属性对聚类结果产生的负面影响,本文在聚类过程中,融入空间模型修正方法,通过使用一种比较全面的特征属性度量方法,进行特征属性重要性的判定,从而修正特征空间,达到“降噪”的目的。试验证明,改进后的算法在处理网页数据时,相比传统K-means算法的稳定性方面有明显优势,在聚类效果上也得到了提高。