汉语新词语发现及其词性标注方法研究

被引量 : 0次 | 上传用户:lym66688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济社会的飞速发展,汉语也得到了丰富与发展,大量汉语新词不断出现在人们生活中。新词语的出现给汉语分词带来更大的挑战。新词的存在使得汉语分词结果中出现过多的“散串”,在很大程度上影响了分词的准确率。因此,新词发现已经成为汉语自动分词中的一个难点与瓶颈问题。如何识别寻找汉语新词成了一个重要的研究课题。词性作为词汇最重要的属性,也是连接词汇到句法的主要桥梁。因此,词性标注是必须为后续自然语言处理过程提供高质量的中间结果,但新词的出现同样在一定程度上降低了词性标注的性能。目前,许多研究者已提出多种新词发现的方法。但其寻找新词语都是限于领域或限于新词语的词频。本文在分析前人的研究成果基础上,提出一种基于支持向量机的新词发现混合模式,试图综合基于统计的方法和基于规则方法的优点,以吸收了统计方法的快速,保留专家系统的质量。在基于统计的模块中,新词发现过程被看作是一个二类分类问题,已有的新词特征主要考虑新词内部特征信息,文中综合考虑这些特征,并加入上下文特征信息。在统计处理之后,加入了规则过滤,以提高新词发现的准确率。并在此基础之上,进一步对新词语词性标注。根据本文提出的方法,整个系统分为两个部分,实现了新词语的识别及其词性的标注。1.在新词发现的算法方面,支持向量机(Support Vector Machine,SVM)被用来处理分类问题。支持向量机已经成功广泛应用于模式识别和分类问题,在高维数据空间中,其可以找到足以区分各类数据点的最优分割超平面。在SVM的框架下,少量人工规则的引入以弥补统计模型的固有不足,提高处理性能。文章详细介绍了用于汉语新词语识别的基于支持向量机的混合算法,及其主要的工作流程。2.在汉语新词语词性标注方面,文中把这个问题作为一个分类问题,同样采用支持向量机来处理这个问题,综合考虑了候选词的内部构词信息与外部连结信息,最后通过对问题的转换,将一个多类分类问题转换为两类分类问题。最后,对于1998年人民日报一个月的语料的实验表明,新词发现的准确率达到60.81%,召回率为68.94,F值为64.62%。词性标注的准确率达到90%。
其他文献
随着科学技术的发展,计算机和网络通信技术的应用,产品生命周期越来越短,品种越来越多,客户的需求也越来越多样化,企业之间的竞争越来越激烈。竞争模式从个体企业之间的竞争
航运业是服务性行业,船舶、货运代理行业作为航运业的一个特殊分支,它提供的商品也是一种服务商品,是海上船舶运输的辅助性服务。船货代业的竞争是服务水平的竞争,即通过各种
<正>艺术大师徐悲鸿有诗云:"删繁就简三秋树,标新立异二月花。"艺术到一种很高的境界就是简约。我想语文教学到一种很高的境界也就是简约——"简简单单教语文,扎扎实实求发展
把第二类回火脆性的定义、特征及其评定方法作为一个依据,设计了一个实验方案。通过四个步骤:淬火、回火(快冷、缓冷)、磨光及冲击试验、结果分析来证明某钢材具有第二类回火
我国地域辽阔,地处亚洲季风区,气候变化无常,雨水灾害时有发生,常给人民的生命、财产造成严重的损失。特别是山高林密,沟壑纵横,地形复杂的地区,降水时空分布极不均匀,往往是
<正> 不少朋友认为盲人只有通过手术或其他治疗,治好了眼睛才算康复,这种看法是片面的,其实眼睛的治疗只是康复的一个方面。我认为,大多数视力残疾者的视力是不可恢复的,但他
期刊
觉罗塔格构造带是北天山山体的重要组成部分,东西延伸1000km,南北宽约20-30km,北以康古尔北断裂为界与准噶尔板块相邻,南以阿其克库都克断裂为界与中天山微地块为界,构造带内
<正> 1995年9月华夏出版社出版的《盲人生活指南》一书,对提高盲人生活自理能力,对明眼人理解盲人从而有效地扶助、教育盲人有积极作用。因此该书值得一读。 该书有如下几个
随着全球可再生能源市场的迅速发展,风力发电逐渐成为能源工业新的增长点。风力发电机中的增速齿轮箱是一个重要的机械部件。风力发电机组的大型化方向发展对增速箱运行的稳
立体种植技术是在继承和发扬我国优良传统种植经验的基础上,广泛利用现有的自然资源、生产条件和现代农业科学技术,提高资源利用率,可以充分利用空间和时间,通过间作、套作、