论文部分内容阅读
伴随着时代的迅速发展和互联网技术的广泛应用,网络上流传的文字数量正在迅速增加,不论是处于存储状态还是处于流动状态,这些文本信息对于人们的生活或多或少有着一定作用。在如此大量的文本信息中,如何能够快速准确的找到人们需要的文本是一个很重要且有实际意义的课题。作为管理大量文本数据的重要技术,文本分类在信息检索和数据挖掘等方面有着极高的应用价值和需求,在信息化时代有着极其重要的研究意义。本文旨在提高KNN分类器的分类性能。论文首先阐述了文本分类的大概流程,然后在流程中选取了较为关键的特征提取、特征加权、分类算法作为主要研究目标,在深入学习并研究了相应过程后对原算法提出了改进并且进行了实验加以验证。(1)分析特征提取步骤中常用的互信息方法。传统的互信息算法忽略了负相关特征的作用,也忽略了其对分类精度的影响。针对该缺点,提出了一种改进算法,主要是为了增强负相关特征项在分类中的有益影响。使得在某些特定领域中经常出现的特征词,能够被特征提取算法所识别出来。(2)结合实数编码遗传算法对特征加权进行了改进。主要针对TF-IDF算法不考虑类之间或类内部的特征分布,不考虑特征未完全分类的情况,提出了基于实数编码遗传算法(GA)的特征加权方法,用实数编码遗传算法计算特征权重。(3)在分类算法部分,由于本文的主要目标是提升KNN分类器的性能,所以对KNN算法做了详细的介绍,为了考虑语义关联的非对称性,提出了一种基于关联规则的KNN改进算法。Apriori算法主要用于先提取类别的频繁项集和关联文本,从而确定合适的邻近数k。改进后的算法能更有依据的确定k值的大小。最后通过实验,验证了以上三部分的改进都能提高分类的准确性,提高了KNN分类器的性能,证明了本文提出的改进算法的有效性。