基于统计规则的中文分词研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:niuniuplayplay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理的前置过程,其任务是使用机器自动识别中文文本中的词边界。中文分词的几个关键问题分别是:语料库的建设、分词歧义消解以及未登录词识别。本文主要研究分词歧义消解问题,并针对分词系统的反馈问题,提出了基于统计规则的分词算法。基于词典的机械匹配是分词处理的首要环节,而词典的结构对词语匹配速度有很大的影响。针对首字哈希、双字哈希等词典结构不可避免地需要进行二分查找,从而影响匹配速度的问题,本文提出了全哈希前缀树的词典结构,将词语匹配的时间复杂度降低为O(N),其中N是词语的平均长度。实验表明,该词典结构的词语匹配速度是首字哈希结构的5倍以上。统计排歧方法不可避免地受到语料库质量和平衡性的影响,不能覆盖一些特殊情况。因此本文提出了一种切分规则,对分词系统不能正确切分的情况,允许用户通过编写切分规则的方式给分词系统提供反馈信息,校正分词错误。同时将词语匹配、切分规则匹配和统计排歧过程统一在一个算法中。这种基于统计规则的分词算法其时间复杂度是O(M),其中M是待切分句子的长度,切分速度和双向匹配分词算法相当。实验表明,切分规则使分词系统具有了反馈和积累语言知识的机制,是对统计模型的一个有益补充。本文最后实现了基于统计规则的中分分词实验系统,使用国家语委平衡标注语料库进行测试,在没有编写任何切分规则的基础上,分词准确率达96.3%以上,分词召回率达96.7%以上。用户可以通过编写切分规则、增加词典条目等方式,有效地改进系统的分词性能。
其他文献
[目的/意义]分析OCLC《科研数据管理的现实》系列调查报告,为我国大学科研数据管理提供实践思路.[方法/过程]通过案例分析、网络调查和文献研究,总结系列报告主要内容及其关
从上个世纪九十年代末期开始,数字资源飞速增长。数字图书馆的建设方兴未艾,随着网络数字化环境的形成,一方面读者迫切需要一个可以快速获得相关信息的理想平台,另一方面图书馆却
[目的/意义]手机阅读持续使用意愿的研究受到学者们的广泛关注,感知特性和个性化对其影响的研究能够为图书馆的管理改革和服务优化提供有益指导.[方法/过程]通过构建结构方程
中国台湾地区电影由于特殊的历史背景,其原乡认同呈现在叙事上与中国大陆有着极大差异.本文从两岸文化背景的差异分析出发,通过对《山河故人》与《童年往事》的具体文本进行
[目的/意义]引文是施引文献与被引成果的纽带,反映了后继者的借鉴和肯定.本研究在传统题录关键词网络的基础上,创新地将引文上下文关键词作为研究材料,所构建知识图谱不仅能
非物质文化遗产是我国各族人民在长期生产、生活实践中创造出来的,是中华民族智慧与文明的结晶。非物质文化遗产保护对于传承中华文明、发展社会主义先进文化具有重要的意义。
小学生的行为是会受到周边环境影响的.这和学生自主意识差,分辨识别能力差有关;也和小学生的成长本来就具有模仿天性有关.面向小学生进行文明礼仪教育,这是学校发挥教育职能,
群体极化是群体行为中的一种特殊现象,在我们的日常生活中时有发生。随着网络的发展,人们在网络上的交流活动越来越频繁,网络环境中的群体极化现象引起了学者们的特别注意。网络