汉语新词语发现及其词性标注方法研究

被引量 : 0次 | 上传用户：lym66688

【摘要】

：

随着经济社会的飞速发展,汉语也得到了丰富与发展,大量汉语新词不断出现在人们生活中。新词语的出现给汉语分词带来更大的挑战。新词的存在使得汉语分词结果中出现过多的“散

【作者】

：

杨辉

【发表日期】

：

2008年期

【关键词】

：

新词发现词性标注自然语言处理支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着经济社会的飞速发展,汉语也得到了丰富与发展,大量汉语新词不断出现在人们生活中。新词语的出现给汉语分词带来更大的挑战。新词的存在使得汉语分词结果中出现过多的“散串”,在很大程度上影响了分词的准确率。因此,新词发现已经成为汉语自动分词中的一个难点与瓶颈问题。如何识别寻找汉语新词成了一个重要的研究课题。词性作为词汇最重要的属性,也是连接词汇到句法的主要桥梁。因此,词性标注是必须为后续自然语言处理过程提供高质量的中间结果,但新词的出现同样在一定程度上降低了词性标注的性能。目前,许多研究者已提出多种新词发现的方法。但其寻找新词语都是限于领域或限于新词语的词频。本文在分析前人的研究成果基础上,提出一种基于支持向量机的新词发现混合模式,试图综合基于统计的方法和基于规则方法的优点,以吸收了统计方法的快速,保留专家系统的质量。在基于统计的模块中,新词发现过程被看作是一个二类分类问题,已有的新词特征主要考虑新词内部特征信息,文中综合考虑这些特征,并加入上下文特征信息。在统计处理之后,加入了规则过滤,以提高新词发现的准确率。并在此基础之上,进一步对新词语词性标注。根据本文提出的方法,整个系统分为两个部分,实现了新词语的识别及其词性的标注。1.在新词发现的算法方面,支持向量机(Support Vector Machine,SVM)被用来处理分类问题。支持向量机已经成功广泛应用于模式识别和分类问题,在高维数据空间中,其可以找到足以区分各类数据点的最优分割超平面。在SVM的框架下,少量人工规则的引入以弥补统计模型的固有不足,提高处理性能。文章详细介绍了用于汉语新词语识别的基于支持向量机的混合算法,及其主要的工作流程。2.在汉语新词语词性标注方面,文中把这个问题作为一个分类问题,同样采用支持向量机来处理这个问题,综合考虑了候选词的内部构词信息与外部连结信息,最后通过对问题的转换,将一个多类分类问题转换为两类分类问题。最后,对于1998年人民日报一个月的语料的实验表明,新词发现的准确率达到60.81%,召回率为68.94,F值为64.62%。词性标注的准确率达到90%。

其他文献

FS公司营销流程再造研究

随着科学技术的发展,计算机和网络通信技术的应用,产品生命周期越来越短,品种越来越多,客户的需求也越来越多样化,企业之间的竞争越来越激烈。竞争模式从个体企业之间的竞争

学位

营销流程流程再造组织变革流程优化

锦州港货运船舶代理有限公司经营策略发展研究

航运业是服务性行业,船舶、货运代理行业作为航运业的一个特殊分支,它提供的商品也是一种服务商品,是海上船舶运输的辅助性服务。船货代业的竞争是服务水平的竞争,即通过各种

学位

船舶代理锦州港货运船舶代理SWOT分析经营策略

“本色语文”的课堂真美——小学语文简约课堂教学策略感想

<正>艺术大师徐悲鸿有诗云:"删繁就简三秋树,标新立异二月花。"艺术到一种很高的境界就是简约。我想语文教学到一种很高的境界也就是简约——"简简单单教语文,扎扎实实求发展

期刊

本色语文简约课堂教学策略

第二类回火脆性的证明原因及防治措施

把第二类回火脆性的定义、特征及其评定方法作为一个依据,设计了一个实验方案。通过四个步骤:淬火、回火(快冷、缓冷)、磨光及冲击试验、结果分析来证明某钢材具有第二类回火

期刊

第二类回火脆性冲击韧性原因影响因素防治措施

基于GPRS的自动雨量站系统的设计与实现

我国地域辽阔,地处亚洲季风区,气候变化无常,雨水灾害时有发生,常给人民的生命、财产造成严重的损失。特别是山高林密,沟壑纵横,地形复杂的地区,降水时空分布极不均匀,往往是

学位

数据采集GPRS通信自动雨量站雨量测报

行走,盲人康复的一把钥匙——我的行走体会

<正> 不少朋友认为盲人只有通过手术或其他治疗,治好了眼睛才算康复,这种看法是片面的,其实眼睛的治疗只是康复的一个方面。我认为,大多数视力残疾者的视力是不可恢复的,但他

期刊

低视力

东天山觉罗塔格构造带石炭纪沉积盆地分析

觉罗塔格构造带是北天山山体的重要组成部分,东西延伸1000km,南北宽约20-30km,北以康古尔北断裂为界与准噶尔板块相邻,南以阿其克库都克断裂为界与中天山微地块为界,构造带内

学位

石炭纪觉罗塔格构造带康古尔洋裂陷盆地弧间盆地岛弧带

为了盲人的生存和发展——浅议《盲人生活指南》

<正> 1995年9月华夏出版社出版的《盲人生活指南》一书,对提高盲人生活自理能力,对明眼人理解盲人从而有效地扶助、教育盲人有积极作用。因此该书值得一读。该书有如下几个

期刊

人的生存和发展《盲人生活指南》

兆瓦级风力发电机齿轮传动系统耦合振动分析及优化设计

随着全球可再生能源市场的迅速发展,风力发电逐渐成为能源工业新的增长点。风力发电机中的增速齿轮箱是一个重要的机械部件。风力发电机组的大型化方向发展对增速箱运行的稳

学位

风力发电机齿轮传动扭转振动动态响应优化设计

玉米立体种植技术

立体种植技术是在继承和发扬我国优良传统种植经验的基础上,广泛利用现有的自然资源、生产条件和现代农业科学技术,提高资源利用率,可以充分利用空间和时间,通过间作、套作、

期刊

玉米立体种植技术

汉语新词语发现及其词性标注方法研究

其他学术论文