论文部分内容阅读
中文短文本分类近年来随着国内移动互联网的快速发展和智能手机的普及成为一个新的研究热点。在电子取证领域,如何快速准确的从手机等设备的大量短信文本中提取出有用信息成为取证人员面临的一个问题,而短文本分类是一个有效的解决该问题的方法。在其它如社交网络、知识问答系统和信息检索等领域,中文短文本分类也有着广泛的应用前景。本文立足于解决手机取证中的中文短文本分类问题,对目前应用于短文本分类的多种方法进行了比较学习与研究。首先,讨论了应用于文本分类的主要技术,指出目前应用于短文本分类的方法主要包括两类,一类是现有的应用于长文本分类的方法以及在此基础上的改进方法,主要包括基于特征权重的多种方法,另外一类是借助外在的知识库增加短文本的信息量的方法,主要包括基于特征扩展的方法;然后,本文重点介绍了六种基于特征权重的分类方法,以维基百科为知识库的基于特征扩展的分类方法,和适用于短文本的特点的三种基于特征权重的改进方法。最后,本文设计实验对这些方法的分类效果进行了比较,并详细介绍了这些方法的各个模块的具体实现,并对实验数据进行了分析。实验结果表明,改进的基于iqf*qf*icf的短文本分类方法在基于特征权重的九种分类方法中分类效果最好,同时该方法与基于特征扩展的方法相比整体的分类效果相差不大,但是该方法稳定性更好;在分类算法的比较中,SVM在中文短文本中的分类效果要稍好于NaiveBayes方法。