基于词典的中文分词歧义算法研究

被引量 : 43次 | 上传用户:p348892993
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的飞速普及,人们已经进入信息时代。在这个信息社会里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取,掌握大量有用的信息。在这种环境下,中文信息处理技术逐渐成为技术人员的开发热点,而其中最为重要的就是中文分词技术。中文分词技术,就是指将文本中每句话,利用分词算法拆分成词,以便于计算机对文本信息进行处理和理解的过程。它应用广泛,主要应用于信息检索,信息抽取,机器翻译等自然语言处理技术等。同时,它包括很多方面内容,例如中文分词技术中的分词算法研究,未登录词识别技术,分词歧义处理技术等等。其中歧义处理技术和未登录词识别技术是中文分词技术的两大难点。而本文则是重点对中文分词技术中的分词算法和歧义处理技术进行了深入的研究和实践。首先,本文采用了一种典型的基于词典的中文分词算法—正向最大匹配算法,它的思想简单,并且易于实现,但是分词的精确度和速度并不理想。针对该问题,本文采用了双层hash结构的词典机制,来提升分词的速度,同时采用改进的正向最大匹配算法来提高分词的精确度。其次,由于歧义处理技术是中文分词技术中的重要组成部分,只有完成了对文本的歧义处理,才能正确的对文本进行分词。所以本文在提出改进的正向最大匹配算法的基础上,又提出了一种基于概率和规则想结合的歧义消解算法,完成了对文本的歧义处理。最后,本文充分考虑分词系统准确率、速度及可实现性等因素,给出了一种中文自动分词系统的设计方案。并对该分词系统进行了实现,取得一定的分词效果。
其他文献
简要介绍了目前加筋土施工存在的主要问题,并以加筋土桥台施工为例,提出加筋土结构施工工艺的几个关键环节。
2009年4月教育部部长周济向全国人大常委会作了关于职业教育改革与发展情况的报告。他指出,高等职业教育既是支撑社会经济发展的强大动力,也是个人发展的迫切需要。随着科技
诚如鲁迅先生所说“‘二桃杀三士’并非僻典”,但它却让许多名家在这个并非僻典的“二桃杀三士”上屡栽“跟斗”。 第一个栽“跟斗的就是那位当年北洋政府的教育总长兼司法总
项目风险管理已成为现在一个被广泛关注的话题。在工程项目实施过程中,面临着多种因素的影响,导致风险无时不有、无处不在,这极大地影响了工程项目建设进程、增加了项目运营
本白色海岛超细纤维长丝麂皮绒在碱减量开纤之后,纤维表比面积增加,纤维对染料的吸附能力增大,大量分散染料吸附在海岛超细纤维表面,水洗后污水处理负担重。试验尝试采用黑色
"明治精神"是夏目漱石在《心》这部小说中首次提出的,毫无疑问是夏目漱石超时代的思想精髓和价值观体现。在东西方思想文化大碰撞的明治时代,崇尚"自由和独立的个人精神"之风
进入20世纪80年代以来,经济全球化进程加速发展,世界经济格局发生了巨大的变化。在新的历史条件下,经济危机已不仅仅局限于发达资本主义国家,通过全球化,它还扩散到了发展中国家。
由于知识产权本身的复杂性和价值的易变性,以及我国规范知识产权出资的法律法规尚不完善,因此实践中常常存在知识产权出资后价值贬损、知识产权评估不实、隐性知识产权出资等
从选用合适类型的产品、合适的材质及运行转速等几个方面论述提高渣浆泵使用寿命,对实际生产具有指导意义。
21世纪体育产业蓬勃发展,健身与休闲的体育活动逐渐成为人们体育文化生活和增进自身健康的首选。作为体育本体产业之一的健身娱乐业也迎来了良好的发展机遇与严峻的挑战。各