论文部分内容阅读
随着当今网络信息量的飞速增长,海量的网络文本数据也在呈现指数级增长,传统的人工分类方法显然已经不适用,文本分类技术应运而生。文本分类是在指定的分类系统下,依据待分类文本的特征判定其所属类别的过程。文本分类技术能快速而准确的帮助人们查找所需的信息,具有很大的应用价值。 目前,针对文本分类技术的研究主要集中在以下三方面,文本表示、文本特征选择以及分类算法的改进。本文对文本分类技术进行了系统的介绍,在分析了各种特征提取技术之后,探索并提出了一种新的特征提取方法。该方法针对中文期刊类文本提出,结合文本结构和类别信息对传统特征提取算法加以改进,以期取得更好的文本分类效果。 本文针对期刊类文本的结构信息探讨了特征项的位置加权,对重要位置的特征项赋予较大权值,在一定程度上能够提升文本分类的准确性。本文对传统的TF-IDF算法进行了改进,TF-IDF算法是当今特征加权算法中应用较为广泛和经典的算法,但其自身存在一定的缺陷,针对多类文本分类时,TF-IDF算法忽略了文本特征项的类内和类间分布状态,因此进行特征加权时存在一定的误差,单纯对稀有的特征项赋予较大的权值,对更能区分文本类别的特征项赋予的权重过小。因此,本文结合了文本特征项的贡献度对TF-IDF算法进行了改进。 本文通过多组对比实验验证了改进的特征提取方法在中文文本分类上的有效性。实验结果通过多重评价指标进行分析,如查全率、查准率和F1值等,实验结果表明基于位置加权、结合特征贡献度的TF-IDF算法针对中文期刊类文本的分类结果优于传统的TF-IDF算法。