论文部分内容阅读
伴随着Internet的飞速发展,Web上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的Web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。Web文本分类可以有效的解决上述问题,它起源于ATC技术(自动文本分类技术),是Web文本挖掘的关键组成部分;Web文本分类可以提高用户进行网上信息搜索的效率,可以对搜索结果进行分门别类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价值的知识。 本文在分析Web挖掘和Web文本挖掘的研究现状和存在问题的基础上,主要研究了Web文本分类关键技术、常用文本分类方法和基于粗糙集和KNN的混合Web文本分类方法,主要研究工作包括: (1) 介绍Web挖掘和Web文本挖掘的基础理论和相关知识,分析Web文本挖掘和Web文本分类的研究背景、现状和存在的问题。 (2) 对Web文本分类过程中的关键技术:文本预处理、分词技术、文本的表示、权重的计算、特征提取和降维技术,进行详细的分析和讨论;分析和讨论影响分类性能评价的五个因素和几种常用的分类方法质量评价方法。 (3) 讨论几种常用的文本分类方法:KNN分类法、基于VSM的向量距离分类法、贝叶斯分类法、支持向量机分类法和决策树方法等,对这些方法的分类理论进行介绍,分析和比较这些分类方法的优缺点。 (4) 提出一种基于粗糙集和KNN的混合文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。