论文部分内容阅读
21世纪是信息时代,万维网上出现了海量的文本资源。对于互联网用户来说面对如此海量的文本信息,出现了拥有海量信息但知识相对贫乏的现象,人们从互联网海量的信息中获取对自己有用的知识变得相对困难,因此将互联网上的文本信息按照内容分门别类是一个迫切需要解决的问题也是互联网发展的必由之路。自从文本分类由美国学者H.P.Luhn教授在1957年第一次被提出来,现今文本分类已经成为数据挖掘领域非常重要的一个分支,它已经在搜索引擎等领域有较好的应用。文本分类中特征选择是降低特征空间维数提高分类算法精度的重要过程。所以寻找优秀的特征选择方法对特征空间进行降维,当前已是一个非常有实际价值的研究课题。下面是本文所做的主要工作: 1、本文首先研讨了选题的现实意义,研究了构成文本分类流程中各个环节的要素,分析了传统文本分类的特征选择方法,在介绍粗糙集基本理论的基础上,把粗糙集应用到特征选择中,分析这样做的优点,并且介绍了目前常见基于粗糙集理论的特征选择方法。 2、在文本分类中特征的权重体现了特征对于文本重要性。因此,好的特征权重计算算法也就显得非常重要,本文在分析了前人的特征权重计算算法的基础上提出了基于粗糙集和特征位置重要度的特征权重计算算法。 3、在分析前人属性约简的基础上,利用多粒度粗糙集的相关概念给出了一种新的多知识粒度概念,利用它构造了一种新的粒度函数,将此粒度函数运用到属性重要度的计算中,基于此针对决策信息系统建立了一种新的启发式属性约简算法。 4、经过分析把变精度粗糙集引入到KNN分类器中,将变精度粗糙集的核、负域和边界域作为衡量训练样本集的类内、类外和类边界的指标;然后对处于类内、外和边界区域的待分类样本,在判断其类别时区别对待,这样就可以有效降低训练样本集的规模,提高分类的效率和精度;最后本文对类别函数进行了改进,使得类别函数更能体现待分类样本的类别。 最后,把这些算法应用到模拟实验中,验证了这些算法在文本分类中有较高的召回率、准确率和F1值。