论文部分内容阅读
文本分类是指根据所提供新文本的内容在给定的文本分类体系中确定所属的文本类别进行自动分类的过程。目前常用的文本分类方法有:KNN算法、Rocchio分类算法、决策树算法和朴素贝叶斯算法。粗糙集理论通过直接对数据进行分析和处理,探知其内在的知识和规律,是一种能有效分析不确定知识、进行数据挖掘和知识发现的数学工具。将粗糙集理论应用于文本分类是目前的研究热点之一。其研究的重点是知识约简理论及其应用。知识约简理论能在分类能力不降低的情况下获得分类问题的决策或规则。利用知识约简理论对信息表中属性信息进行处理,且在不影响分类能力的情况下去除多余信息的过程即是属性约简的过程。决策表的属性约简是基于粗糙集理论的文本分类技术最重要、最核心的部分,而属性约简的过程又分为属性重要性排序和得到属性约简集两个部分。本文重点研究将粗糙集理论的知识约简理论应用于文本分类的核心内容——属性约简。首先,对训练文本集进行预处理,通过特征选择、抽取和文本描述,得到一簇以特征向量来表示文本及文本类别的集合;然后,利用得到的信息构建一个决策信息表;最后,利用知识约简理论对决策表属性信息进行处理,在不影响分类能力的情况下,去除多余的信息,得到分类规则。本文主要的创新工作如下(1)对粗糙集理论中近似算子计算方法进行改进。一方面,将粗糙集理论中等价关系泛化为容差关系或包含关系;另一方面,从基本知识粒度的构造和知识的表示方法上,研究基于邻域系统和粒度两个方而的上、下近似算子。(2)在文本分类和粗糙集理论的基础上,提出综合特征选择和粗糙集理论的属性重要性评价标准。在文本分类过程中,特征选择、提取和文本描述产生的特征项的相关度和粗糙集本身的评价标准进行结合,使约简后的属性集更具重要性、表现出更好的文本识别率。并通过对粗糙集理论中属性约简算法的研究,提出了一种改进的属性约简算法,并将其运用于文本分类技术中。数值实验表明,运用这种文本分类技术对小规模文本集能够得到更好的分类结果。