论文部分内容阅读
文本分类(Text Categorization,TC)是指在分析文本内容的基础上按一定的策略把文本归入一个或多个合适的类别的应用技术。根据是否有固定的类别体系可分为有监督(Supervised)的自动归类和无监督(Unsupervised)的自动聚类。随着互联网上在线文本信息的急剧增加,文本分类对于信息处理的意义变得更加重要。文本自动分类广泛应用于文本处理和信息检索的各个领域,成为处理和组织大规模文本信息的关键技术,并推动了信息处理朝着自动化的方向发展。本文所研究的文本自动分类就是指在给定类别体系下的文本自动归类。 由于自然语言的复杂性,以及在描述和理解方面具有高度的不确定性和模糊性,因而文本类别的识别带有一定的模糊性,对这些具有模糊性的模式借助于模糊理论来刻画显得很自然。并且实际经验告诉我们,很多实际分类问题往往不好精确地确定某个对象属于某个类,而只能给出某个对象属于某个类的可能性有多大,因此将模糊知识处理的理论技术应用到文本分类的领域中,利用适当的模糊反而可以达到更精确的分类结果。 本文以科技文献信息处理为背景,从理论和应用的角度对基于模糊知识处理的文本分类技术进行了较为深入的研究,主要工作总结如下: 1.将模糊数学中模糊集合的理论应用到文本分类领域,并对模糊文本分类做了系统的理论和应用研究。 2.结合科技文献的结构特点,将模糊集间的贴近度和模糊语义关联度(Fuzzy Semantic Relationship)两种概念的分类算法分别应用于中文文本分类,测试并对比了这两种算法的分类性能。两个模糊集间的语义关联度,不但依赖于两个模糊集论域的元素间的隶属度,而且与相应论域元素间的语义近似程度有关,而贴近度的方法只考虑了相同元素在不同模糊集中隶属度值的关系,因此模糊语义关联度的方法获得了更好的分类效果,并且更好地解决了文本兼类的问题。 3.在模糊文本分类的基础上,对分类结果进行了分析,将分类错误归结为两种类型,并针对这两种情况提出了隶属度更新算法,结合模糊语义关联度的分类算法提出了运用更新公式不断对分类结果进行校验纠错进而逐渐地构造分类器的算法。实验结果表明这种算法有效利用了训练文本集,提取出了最优的描述训练文本的模糊集表示,提高了文本分类的精度。 4.对我们所提的训练算法进行了迭代改进,在保证分类精度的基础上有效控制了迭代次数和速度。