论文部分内容阅读
聚类技术是一个来源已久且与人们的生活息息相关的实用技术,在现实生活中有很多领域需要聚类技术,尤其随着信息产业的发展、网络的进步,人们每天接触的信息与日剧增,如何对这些大规模的信息进行处理已经成为当今研究的热点,而聚类恰恰可以作为该问题的一个很好的解决办法。聚类不依赖任何先验知识而将相似的数据划分到一个类别中,由于类别数是远小于数据数的,因此对大量数据进行聚类后,用户可以快速发现自己感兴趣的信息所在的类别。由于网络信息大多以文本形式表示,因此文档聚类已逐渐成为一个热门的研究领域,然而随着文档数量的增多,传统的文档聚类算法已经无法对大规模文档聚类中存在的向量稀疏性和语义相似性等问题进行处理。因此,本文从以下四个方面研究了大规模文档聚类算法中存在的特有问题,并给出了相应的解决方法。第一,传统的基于统计信息的特征选择方法选取的特征不仅无法完全覆盖文档的主题,并且其中含有大量的冗余信息。随着文档规模的增大,此方法会严重增加特征空间的维数而降低了聚类的效率。基于此本文提出了一种基于主题分析的特征选择技术,该方法通过构建词汇链从多个侧面分析文档所描述的主题信息,然后在词汇链中选择能够充分代表该链所述信息的特征作为聚类特征,此方法能够有效提升聚类的效率。第二,随着文档规模的增大,特征空间中存在大量的文档具有语义相似性,而传统聚类算法中的相似度计算方法是无法发现这个问题的。基于此本文将语义相似度引入聚类中,使聚类算法能够发现文档间的语义相似性从而提升聚类的准确度。同时不同的特征对文档的划分能力是不同的,而传统聚类算法中的相似度计算方法将所有特征的权值看作是同等重要的,基于此本文提出了一种基于特征分布的特征权值量化方法,其可以通过统计特征的分布来计算特征在文档与神经元相似度计算中权值,此方法能够提升那些可以有效描述数据间相似性的特征在相似度计算中的作用。第三,随着文档规模的增大,作为每个文档类的代表特征仅占特征空间的很小一部分,而传统聚类算法以特征空间内的所有特征构造类别特征集合,此方法显然会引入无关特征的干扰而降低聚类的准确率。针对此问题,本文提出了一种基于向量压缩的神经元聚类算法,该算法首先从特征空间中选择能够代表类别描述信息的特征对文档进行划分,然后通过神经元算法对划分进行迭代调整以得到更加优化的类别特征表示和类别划分结果,其可以有效降低聚类的运行时间并提升聚类的准确度。另外本文还提出了一种基于概率的多阶段聚类算法,该算法通过选择与类别相关的特征构造类别特征集合可以有效避免无关特征对聚类结果的干扰,因此具有很高的聚类准确率。最后,随着网络信息的实时更新,用户想一次性拥有完整的待聚类数据是非常困难的,因此本文提出了一种基于抽样数据的增量聚类算法,该算法可以对数据进行实时聚类。同时本文还提出了一种拓扑结构可变的神经元聚类算法,该算法可以有效模拟数据在不同时间段内的分布情况,此算法还被应用于数据进化分析中以分析不同时间段内数据的改变情况。