论文部分内容阅读
本文基于支持向量机的方法对文本的主题分类和情感分类的进行了研究,对一些关键技术如特征的选取、权重的计算以及维数的确定做了详细的比较分析。主要研究内容如下:
(1)介绍了KNN与支持向量机方法,并对这两种方法基于文本主题分类进行了实验,实验结果表明支持向量机是当前分类结果较稳定,精度较高,性能较好的方法。
(2)基于支持向量机方法对四种特征选择方法进行测试,结果表明,信息增益、交叉熵以及χ2统计的分类效果要优于互信息。
(3)研究了特征向量的维数与特征选择方法对分类结果的关系,结果表明,不同特征选择方法达到最大值时特征向量的维数取值是不同的。
(4)基于支持向量机的主题分类和基于支持向量机的情感分类的比较,实验结果表明,基于支持向量机的主题分类比基于支持向量机的情感分类效果要好,说明情感分类要比主题分类更复杂。