论文部分内容阅读
本文主要是应用支持向量机的分类方法对中文文本进行自动分类。首先介绍了中文文本自动分类的框架体系,基于词典的中文自动分词技术,然后介绍五种特征选择方法,向量空间模型和支持向量机。最后用上面的技术实现了基于支持向量机的中文文本自动分类模型。
该模型通过对训练集中的文本进行分词,获得文本的原始特征集,然后通过统计方法获得文本在VSM空间中的TF-IDF函数表示,对文本向量进行加权。训练文本集按照上面方法进行向量表示后,作为支持向量机的学习向量进行训练,从而获得文本分类的支持向量。对于将要进行分类的文本,也按照上面的方法进行向量化,然后通过支持向量机判别该文本的类别。通过实验深入比较了五种文本特征选择算法:信息增益,互信息,x2估计,交叉熵,文本证据权,以及三种核函数,分析总结了它们的效果和特点。