论文部分内容阅读
在过去的十几年中,将文本自动地归于事先定义好的类别的技术获得了长足发展,这主要是因为以数字形式存储的文档的数目急剧增长,引起了将它们进行有效组织以便于利用的需求。这一过程主要是用机器学习的方法,在事先构造的训练语料上学习各个类别的特征,自动构建出一个分类器。传统的文本分类方法都是采用向量空间模型的文本表示方法,用关键词作为特征来构建的。然而,向量空间模型的文本表示方法是基于贝叶斯假设之上的,即认为词与词之间没有语义联系。但是在现实文本中的用词往往是有关联的,比如:同义词、上下位关系等。并且用关键词来表示文本的特征虽然简单直观,但有其固有的局限性,主要有包含的类别信息太少,维数过高从而造成数据稀疏等两个问题。用特征串作为类别特征可以在一定程度上解决第一个问题,但又会进一步加剧数据稀疏问题。对第二个问题的解决方法一般是进行降维,去掉一些对分类结果没有影响或影响很小的特征,用剩余的特征来表示文本。根据结果特征的特点,降维方法可以分为(1)特征提取:结果是原始特征的子集;(2)特征抽取:结果不是原始特征的子集。基于概念的文本分类方法,采用概念作为特征,将特征从词空间映射到概念空间,这样多个同义词就对应一个概念,而一个多义词在不同的语境下会被映射到不同的概念,提高了特征的凝聚度,克服了基于关键词的分类方法的缺陷,提高了分类准确率。本文的研究工作主要包括以下几个方面:1.建立了基于本体的文本分类模型。2.提出基于本体获取概念特征的方法。3.使用概念空间代替词空间,提出相应的权重与相似度的计算方法,建立概念向量空间模型。4.讨论了K最邻近方法和支持向量机分类器,并将概念向量空间模型的思想运用于这两种分类器。5.给出新方法的仿真实验。实验结果表明,基于概念的文本分类与基于关键词的文本分类相比,在查准率、查全率和F1测试值上都占有较大优势。