论文部分内容阅读
随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用启所需要的信息是当前信息科学技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象,方便用户准确地定位所需的信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类有着广泛的应用前景。要进行web文本分类,首先要做的就是对web文本数据进行数学描述,其中最常用的模型就是向量空间模型和潜在语义索引模型等。在向量空间模型中,每一个不同的单词都作为特征空间中的一维,每一个文本就是特征空间中的一个向量。潜在语义索引模型在最初对文本的描述上也与之类似。但是,这种描述方法引发了一个非常严重的问题,那就是高维稀疏,加之文本数据所特有的近义词、多义词等等问题,使得文本分类具有相当高的时间复杂度,而且这些问题也极大地干扰了分类算法的准确性,使得文本分类的性能急剧下降。因此,迫切需要通过其它技术优化文本向量表示以帮助提高文本分类的性能。文本向量的优化技术总的来说分为两类,首先是权重调整方法。权重调整方法是通过综合考虑一个单词相对于一个文本、一个数据集或者一个类的重要性来调整其在不同文本中的权重,使其值尽可能正确地反映一个单词与一个文本在语义上的关系。另一类优化技术是降维,它指的是通过降低特征空间的维度优化文本的表示。主要包括特征选择和特征抽取两种技术。本文从向量优化技术入手,将研究点分为了两大块:特征选择及其权重计算方案,特征抽取及其权重计算方案,所做的主要工作如下:在特征选择的研究上,针对目前很少有关于冗余特征研究的现状,分析和论证了在特征选择过程中消除冗余特征的重要性,提出了在特征选择过程中消除冗余特征的途径—特征之间的关联性分析。该方法以信息论量度为基本工具,综合考虑了计算代价以及特征评估的客观性等问题,形成了一种基于关联分析的特征选择算法,算法在保留类别相关特征的同时识别并摒弃了冗余特征,取得了较好的约简效果;在针对特征选择的权重计算方面,首先对传统的权重计算方案进行了分析,在指出其不足的基础上提出了改进方案:(1)对特征的类别区分能力予以了着重加强,在传统的权重公式中扩展了一项单词的类区分能力:wid=local(t,d)*global(t)*classDisc(t)(2)对web文档信息特征进行分析,并且提出了web文档中主特征词、主特征域和主特征空间的概念。分析论证了在主特征空间上应当使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,以更加精确地描述web文本。在特征抽取的研究上,提出了针对局部LSI的权重计算方案。本文研究了典型的潜在语义索引技术(LSI)在文本分类上的两种应用方式:全局LSI和局部LSI。全局LSI完全无视训练数据中已知的类信息,所以全局LSI不但不会提高反而还会降低文本分类的性能。相比于全局LSI,局部LSI不是在整个训练数据上执行LSI,而是在每一个类的局部区域上分别执行奇异值分解从而为每一个类都创建了一个局部语义空间,然后每一个新的文本都分别被映射到每一个局部语义空间中进行分类。局部LSI通过利用已知的类信息很好地抽取出了区分一个类和其他类的语义结构,所以较之全局LSI有了一定的进步;但是通过对局部LSI的权重计算方案的分析我们发现,其权重计算方法只是简单继承向量空间模型,虽然潜在语义索引与向量空间模型在描述文本上有一定的相似性,但其基本思想有本质的不同:VSM本质上将词语看作空间的维度,将文档根据其所包含的词语看作是该空间中的一个点;LSI中不再将词语看作是单独的维度,潜在语义空间中的维度被认为是对应着各个“潜概念”,词语向量被看作是它们在各个“潜概念”上的投影,文档向量是其所包含的词语向量之和。为此本文提出了一种新的基于加权平滑的局部LSI方法,这个方法通过在语义信息表达更清晰的局部区域上执行奇异值分解从而抽取出了更具类区分力的局部语义结构。分类技术作为数据挖掘技术的基础,是信息过滤的基础技术及核心技术。最后本文将所提出的特征向量优化策略在信息过滤技术平台进行了应用层面的测试,取得了令人满意的测试效果。