基于词典和概率统计的中文分词算法研究

被引量 : 0次 | 上传用户:hellogph
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于汉语的自然语言处理来说,汉语自动分词是文本分析的第一个步骤。目前的中文分词方法,可以分为基于词典的分词方法、基于统计的分词方法和基于理解的分词方法三种。基于理解的分词方法研究尚不成熟。如今,比较流行的方法是将词典的方法和统计的方法结合起来。中文分词面临的难点问题是未登录词的识别和歧义切分。近年来,开发的大量的中文分词系统对中文分词中的未登录词识别,通常的做法是在分词系统中加入单独的未登录词识别模块,建立相关的规则来识别。这些分词系统对一些专有名词,如人名、地名、机构名等能够较好的识别,但是对于那些没有特殊规则的网络新词几乎不能识别,这在很大程度上影响了分词的精度。对于歧义切分,尽管近几年对歧义切分的准确率有所提高,但是歧义切分问题仍是迫切需要解决的问题。这两年,字标注的分词方法,取得了很好的成绩。但是,它的分词成绩受限于训练语料类型与规模的分词模式,虽然是目前的研究主流,但这与实用分词的需求背道而驰。因此本文采用了基于词典和概率统计的分词方法提高分词系统的实用性,并解决当前分词系统中急需解决的未登录词识别及歧义切分的问题。本文主要做了两方面的改进:第一,本文采用了与以往新词识别不同的角度对网络新词的识别做了相关研究,我们采用的方法是定期在互联网中采集不同领域的大量网页,用本文中的识别策略进行新词的识别。本文在识别新词中,对特殊标点符号中的词、文章关键词、超链接词汇等做了相关分析与研究。并将识别的新词添加到分词词典中,来扩充词典的词汇量。这对解决分词中的未登录词问题非常有效。最终来提高分词系统的分词准确率和召回率。第二,本文在原有的n元语言模型的基础上,提出了逆向n元语言模型,并分析了n取3时能够使模型的性能最优。从而提出了一种基于双向三元语言模型的中文分词方法,然后在该语言模型中加入了词信息。本文中的基于双向三元模型含词位置信息的分词算法,能更好的处理汉语切分中的歧义问题。最后,通过实验比较,本文的分词系统在速度和精度上都能达到不错的效果。
其他文献
某小型发动机是中国航空工业集团公司燃气涡轮研究院利用多年雄厚的航空发动机预研技术实力研发的小推力涡扇发动机,该型发动机的研发拥有完全的自主知识产权,可用于小型无人
硬盘接口是计算机系统的一个重要组成部分。随着用户对计算机数据处理速度和读写速度要求的提高,传统的PATA硬盘接口开始暴露出数据传输速度以及数据完整性方面的不足。SATA
目的:通过对艾叶中总黄酮成分进行提取,并建立含量测定方法;以及对艾艾叶中的黄酮单体化合物及其他化学成分进行提取、分离、结构鉴定,为进一步系统研究艾叶的化学成分及药理毒
本文结合中海油海外并购优尼科一案,分析了中国企业实施海外并购战略时可能遇到的若干问题,包括缺 乏核心竞争力、国际化人才、完善的金融市场以及面临的文化整合难题等。
一年一度的高三复习迎考即将拉开序幕,在进入复习的日子里,“双基”(基础词汇、基础语法)的学习和训练固然不可丢弃,但应试技巧训练、相关知识梳理、综合运用语言能力的培养以及临
汉语成语因其包含大量的文化信息,对于翻译者而言相当困难。在本文中,笔者将针对此问题介绍六种成语翻译方法以供读者参考。 Chinese idioms because it contains a lot of
随着工业化进程的发展,工伤已经成为重要的社会问题,劳动者在遭受工伤后获得康复,重返社会和工作岗位不仅是劳动者自身的基本人权,同时对社会和个人都有重要意义,因此发展工
自2002年起,我国大学生就业率整体上呈逐年下降趋势。2011年全国普通高校毕业生规模将达到660余万人,高校毕业生就业形势十分严峻。目前我国政府对大学生失业问题非常关注,出
优先股是指股份有限公司发行的、与普通股相对称的、在公司利润分配和破产清偿时享有优先权的一种特殊类型股份。优先股是一种风险小于普通股,而收益大于普通债券的投融资工
信息技术的迅速发展致使企业和高校都部署了众多的Web应用系统。然而各个系统相互孤立,每个系统的用户信息独自管理,并且都有独立的登录认证模块,使得用户每次更换应用系统就