论文部分内容阅读
在过去的十几年中,将文本自动地归于事先定义好的类别的技术获得了长足发展,这主要是因为以数字形式存储的文档的数目急剧增长,引起了将它们进行有效组织以便于利用的需求。这一过程主要是用机器学习的方法,在事先构造的训练语料上学习各个类别的特征,自动构建出一个分类器。 传统的文本分类方法都是用词作为特征来构建的,而用词来表示文本的特征虽然简单直观,但有其固有的局限性,主要有包含的类别信息太少,维数过高从而造成数据稀疏等两个问题。用特征串作为类别特征可以在一定程度上解决第一个问题,但又会进一步加剧数据稀疏问题。对第二个问题的解决方法一般是进行降维,去掉一些对分类结果没有影响或影响很小的特征,用剩余的特征来表示文本。根据结果特征的特点,降维方法可以分为(1)特征提取:结果是原始特征的子集;(2)特征抽取:结果不是原始特征的子集。潜在语义索引是一种特征抽取的方法,它可以将特征从词空间映射到语义空间,同时解决这两个问题。 潜在语义索引能够预知查询中真正“暗含”的查询项和可以应用到文本中的潜在语义关系,它能从原始的特征中提取出正交基,这些正交基的数目比原始的特征数目要少很多,并且可以用它们来表示原始的特征,这样就将原来的高维空间压缩到低维的特征空间去,一般称之为语义空间。 传统的用来进行潜在语义索引的方法是奇异值分解,它的效果很好,但运算速率慢,转换后的矩阵是三个双精度的稠密矩阵,所需的存储空间太大。另一种方法是半离散矩阵分解,它的运算速度很快,转换后的矩阵是两个可以用0、1和-1来表示的矩阵和一个单精度的对角矩阵,所需要的存储空间大大降低,但这种方法的效果有所下降。 本文主要研究了把潜在语义索引用于文本分类的效果,对可能产生影响的因素进行分析,主要考查了不同的特征选取方法和权重计算方案对潜在语义索引的影响。我们还提出了一个潜在语义索引的改进模型,这个模型对提高半离散矩阵分解的效果有很明显的作用。 我们在中英文两个不同的语料上进行了试验,用KNN的方法来构造分类器。试验结果表明,特征选取方法和权重计算方案都对分类效果有明显的影响,但不同的语料需要不同的方法,没有哪一种方法适用于所有的情况。试验