论文部分内容阅读
随着Internet和企业内部网的迅猛发展,各种电子文本信息急剧膨胀。如何有效组织和管理这些信息,并快速、准确、全面的从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,帮助人们准确高效的定位信息和分流信息。因此具有广泛的应用前景。传统文本分类大都采用向量空间模型的文本表示方法,采用关键词作为特征来构建。如朴素贝叶斯方法、KNN方法、支持向量机方法等。这些方法是基于贝叶斯假设之上,认为关键词之间是相互独立,没有语义关联的,这显然与事实相违背,影响了分类的效果。现实文本中的用词往往都是有语义关联的,如同义关系、近义关系、上下位关系等。为解决这些问题,本文尝试引入本体,利用本体类层次结构及属性约束等特点,将关键词与领域本体概念进行匹配,建立概念向量空间模型进行文本分类。旨在解决文本分类中术语一词多义、一义多词和概念的层次问题,克服基于关键词分类方法的缺陷,提高分类的准确率。同时,本文还研究了文本分类与个性化信息检索的关系,对用户兴趣模型进行分析,提出用户兴趣模型建立与调整算法,使分类的结果更加符合用户意图。本文的研究内容主要包括以下几个方面:1.对文本分类过程的关键技术进行介绍,包括文本分类定义、特征选择、分类方法、性能评价,总结传统文本分类方法的特点。2.文本分类与个性化信息检索的研究。文本分类与信息检索有着极为密切的关系,它借鉴了许多检索的表示方法和技术,推动分类的发展。本文对用户兴趣模型进行分析,从关键词和主题词的角度出发建立用户兴趣模型,并提出用户兴趣模型的调整算法,使分类的结果更加符合用户的意图。3.基于本体获取概念特征,用概念空间代替关键词空间。介绍本体概念、建模原语、构建方法及构建工具,用本体构建工具Protégé建立教育领域本体。分析本体应用到文本分类中的意义,即解决了术语混乱问题。4.提出基于概念向量空间模型的文本分类系统架构。以KNN分类器为例,对基于概念向量空间的分类流程进行详细说明。通过模拟实验表明,基于概念的文本分类能有效提高分类的准确度。最后对论文进行了总结和展望,指出基于本体的文本分类尚需研究和改进的问题。