论文部分内容阅读
随着网络信息的迅猛发展,信息分类已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息分类的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。 目前,向量空间模型是进行大规模文本处理的最通用模型,本文首先对向量空间模型进行了研究和探讨,包括:向量空间模型的基本概念、特征项的选择、特征项的提取算法等等。 然后,本文介绍并比较了几种常用的基于向量空间模型的文本分类算法,同时描述了具体的算法步骤。 针对训练样本收集整理工作困难的问题,本文重点探讨了反馈方法与文本分类算法结合的可能性,并具体提出了一种实际可行的结合反馈方法的文本分类系统,该分类系统由训练过程、分类过程和反馈过程三部分组成,系统采用细致的模块化设计,具有很强的扩展性和灵活性。在本文提出并实现的文本分类系统上,我们进行了一系列的测试工作,并得到了严格的实验数据,这些实验数据都表明:在训练样本不充分的情况下,结合反馈方法的文本分类系统可以获得事半功倍的效果。 今后,可以在该文本分类系统的基础上进行有关向量空间模型、机器学习方法的进一步研究。