论文部分内容阅读
通计学习理论,着重研究在小样本情况下的统计规律及学习方法性质。它为机器学习问题建立了一个较好的理论框架,也发展了一种新的通用学习算法—支持向量机(SVM)。本文从支持向量机理论、方法和应用结合的角度出发,研究了支持向量机在中文分词中的应用。主要包括了以下的工作内容:1、通过对SVM的研究,根据SVM的分类特征,对样本输入的要求,核函数与参数进行选择。并且在对支持向量机分类时出错样本点的分布进行研究的基础上,考虑将支持向量机与其它分类方法进行结合,如与最近邻分类(KNN)等分类算法进行结合,形成一种具有更高分类准确率的分类器。同时可以较好的解决应用支持向量机分类时核函数参数的选择问题,能较广泛的应用在各个分类领域中。2、详细介绍SVM在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。3、在采用SVM的基础上,对容易出错的样本,采用和KNN算法相结合互补的方法,对中文分词中的歧义词语进行进一步的分词。提高分类的准确率。同时对歧义字段的表示方法也采用互信息,N元统计模型,t-测试这三种统计原理进行表示,分析其对分词准确度的影响,而采用更好的表示方法,以及提高SVM的准确度。