基于支持向量机的中文分词系统的研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:pipi783
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通计学习理论,着重研究在小样本情况下的统计规律及学习方法性质。它为机器学习问题建立了一个较好的理论框架,也发展了一种新的通用学习算法—支持向量机(SVM)。本文从支持向量机理论、方法和应用结合的角度出发,研究了支持向量机在中文分词中的应用。主要包括了以下的工作内容:1、通过对SVM的研究,根据SVM的分类特征,对样本输入的要求,核函数与参数进行选择。并且在对支持向量机分类时出错样本点的分布进行研究的基础上,考虑将支持向量机与其它分类方法进行结合,如与最近邻分类(KNN)等分类算法进行结合,形成一种具有更高分类准确率的分类器。同时可以较好的解决应用支持向量机分类时核函数参数的选择问题,能较广泛的应用在各个分类领域中。2、详细介绍SVM在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。3、在采用SVM的基础上,对容易出错的样本,采用和KNN算法相结合互补的方法,对中文分词中的歧义词语进行进一步的分词。提高分类的准确率。同时对歧义字段的表示方法也采用互信息,N元统计模型,t-测试这三种统计原理进行表示,分析其对分词准确度的影响,而采用更好的表示方法,以及提高SVM的准确度。
其他文献
近年来,传统的网络营销策略由于成本高、效益低,已经难以很好地适应我国快速发展的精准营销需要,而大数据由于其发展速度快,覆盖范围全面等特点逐渐成了精准营销的主要手段.
四川、重庆地区地形起伏大,气候环境复杂,存在明显的地带差异,自然灾害比较多,对公路工程建设影响比较大。公路是一种直接修筑于自然界中的人工线形结构物,与周围所在的自然环境存
本文主要介绍了我国遥感技术的最新进展和国内外遥感技术以后的发展趋势.
混凝土是现代工程中用量最普通的建筑材料,也是最主要的结构材料,但混凝土存在着一些固有的缺陷,改善混凝土的性能尤为必要。 本文首先介绍了纤维混凝土增强机理的两种理论,即
随着高原地区公路等级及线型标准的提高,如何提高路面抗滑性、舒适性,降低隧道路面噪声,提高隧道路面能见度等是急待解决的问题。露石水泥混凝土路面(exposed-aggregate cement
选取4个苦荞材料,以不同浓度(0%、5%、15%、25%)的PEG-6000溶液胁迫萌发,研究不同浓度PEG-6000对苦荞种子萌发影响,以期筛选出苦荞抗旱性鉴定指标并对不同苦荞材料的抗旱性进行综
半导体的电子输运特性一载流子扩散系数、少数载流子寿命和前表面复合速度是表征半导体品质及特性的重要参数,是控制微电子器件质量、性能和可靠性的关键参数。所以,对这些参数
导模共振效应是波导所支持的导模(泄漏模)受到光栅衍射级次的激发,引起衍射光能量的重新分配,使光场相对于入射角或波长等物理量的微小变化而出现突变。基于导模共振效应的光学
高速化与重载化已经成为铁路发展重要方向。高速铁路轨道长期存在有砟轨道和无砟轨道两种结构形式。无砟轨道具有稳定性好,维修工作量少等特点,我国高速铁路以无砟轨道为主要
微针经皮给药是提高药物经皮吸收效率的给药方式之一,它使用微米尺度的针刺入皮肤,在皮肤上产生药物运输的通道。微针的穿刺深度不会接触到神经末梢和血管,无痛无血就可以使药物