论文部分内容阅读
文本分类作为数据挖掘的重要部分,已广泛应用于信息过滤、个性化推荐、搜索引擎、数字化图书馆等多个领域,具有很强的现实意义。不过随着互联网的发展,文本分类研究遇到了两个难以回避的问题:一是文本数据集的规模过大,造成运算量变大,硬件负担过大的问题。如何高效而正确的分割数据集,选择有助于分类的数据集成为缓解硬件压力的关键;二是文本中出现的同义词和多义词难以处理的问题。不少研究人员试图从文本数据的特殊性——语义上寻找突破口,但如何处理文中的多义词与同义词成为了研究者需要解决的一大问题。为解决这两个问题,本文首先提出了一种基于K近邻算法的数据集分割方法。这一方法是基于K近邻算法,根据不同的测试样本,选择与测试样本最为接近的几个类别组成子数据集,从而解决数据集过大所带来的问题。为了减少多义词和同义词对分类结果的影响,本文提出了一种基于语义相似度的特征选择方法,以流程图详细介绍了该特征选择方法:通过WordNet计算文本中特征词之间的相似度,在特征提取阶段对文本集转为基于语义相似度的特征矩阵。在此特征选择方法以及基于K近邻算法的数据集分割法的基础上,提出了基于语义相似度的文本分类方法,通过对比实验,验证了本文提出的基于语义相似度的文本分类方法能够提高分类器准确率。最后设计并实现了基于语义相似度的文本分类系统。对文本分类系统的设计需求、系统结构、各模块的功能及实现过程中关键类做了说明。通过模块的流程图介绍了各个模块的内容和工作流程。以图片的方式展现本文本分类系统的界面、参数设定界面,并以流程图的形式详细说明了文本分类系统的实现过程。