论文部分内容阅读
粗糙集理论(RoughSet简称RS)是二十世纪八十年代由Z.Pawlak提出的一种新的处理不精确、不确定知识的软计算(softcomputation)工具,而文本挖掘技术是随着互联网的蓬勃发展和电子图书的出现逐渐形成的信息技术领域的一个重要的研究方向。
本文以文本分类技术的研究为核心,从理论、算法和应用模型三个层次来讨论文本的分类技术。本文首先描述了文本的向量空间模型(VectorSpaceModel,简称VSM),并分析了常用的文本分类算法。在文本分类技术的研究中,重点研究如何利用粗糙集的知识约简理论来提高分类的效率,获取分类规则。在粗糙集约简问题的研究中,引入了信息熵(Entropy)的概念,并证明了决策表中决策属性集对条件属性集的条件熵的变化规律是单调递减的,由此得到了约简过程中的启发式的搜索的条件,并将概率论、信息论和粗糙集三者相结合,设计了基于信息熵的属性约简算法。根据这种方法设计与实现了一个文本分类器,通过系统测试证明该方法能够极大地压缩特征向量的维数,并使规则的分类能力保持基本不变。
最后,总结了本文所作的主要工作,对研究中的不足进行了说明,并对将来的研究方向提出了展望。