论文部分内容阅读
近二十年来,随着科学技术的发展,人们产生和收集数据的能力迅速提高,数据的规模急剧增加,数据的复杂性、异构性、动态性显著提高。传统的统计分析技术已无法满足现代数据处理的要求。人们渴求一种新的工具,能够自动分析和整理庞大和复杂的数据,从中挖掘有价值的信息,为决策提供充分的支持。面对这一要求,文本分类技术应运而生。
文本分类作为处理和组织大量文本数据的关键技术,可以在很大程度上解决信息的杂乱问题,对于信息的高效管理和有效利用都具有极其重要的意义,并且已成为数据挖掘、信息检索等领域中一个重要的研究方向。
本文主要对特征选取和集成分类器两个方面展开研究。
(1)特征选取。特征选择是一种从数以万维特征词的文本中挑选具有代表性特征词的技术。本文对基于互信息的特征选择技术做了深入全面的研究。为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以“词-主题”间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。
(2)分类器改进。针对BP神经网络在文本分类中准确率较低和参数设置困难的问题,提出GABP_Adaboost算法。该算法使用Adaboost算法级联多个遗传算法优化的BP神经网络,实现一个无参数的“强”分类器。在20Newgroups语料库上的分类实验显示:GABP_Adaboost算法的准确率比BP神经网络高17.82%,比单个遗传算法优化的BP神经网络高4.64%。
最后,设计了一个文本分类软件包,并使用matlab将其实现。该程序包提供了语料库、文本预处理、文本表示、特征选取、文本分类器等函数接口,并在此基础上实现设计了文本分类系统的可视化界面。