组合型中文分词方法的研究

被引量 : 20次 | 上传用户：iror163

【摘要】

：

随着计算机技术的发展,人们已经进入了以网络为核心的信息时代,在这个信息急剧膨胀的社会里,如何获取和掌握有用的信息成为了个人、企业及政府关注的重点。在这种环境下,中文

【作者】

：

李惠

【发表日期】

：

2014年01期

【关键词】

：

中文分词链长回溯正向最大匹配算法交集型歧义未登录词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的发展,人们已经进入了以网络为核心的信息时代,在这个信息急剧膨胀的社会里,如何获取和掌握有用的信息成为了个人、企业及政府关注的重点。在这种环境下,中文信息处理技术成为了科研人员研究和开发的热点,其中最重要的就是中文分词技术。中文分词是将没有特定分界符的汉字序列分割成符合特定语境下汉语语意的词序列的过程,它是中文信息处理的前提和基础,也是制约着中文信息处理技术发展的瓶颈。歧义的消除和未登录词的识别是中文分词技术的难点,也是影响中文分词切分速度和精度的重要因素。近年来,为了提高切分速度和精度,已经出现了很多中文分词的方法,这些方法的改进主要表现在两个方面：对分词词典的改进,这种改进主要通过减少待切分文本与词典的匹配次数来提高分词的速度；对分词算法的改进,此类型的改进主要是通过对自身算法的改进来提高分词系统的歧义处理和未登录词识别的能力。本文结合这两种改进方式,根据当前关键技术研究现状设计了一个综合词典、统计和规则的组合型中文分词方法,该方法兼有对歧义的检测与处理和对未登录词的识别能力。本文对中文分词的词典机制和分词算法进行了详细研究,提出了一个中文分词的解决方案,该方案主要进行了如下三个方面的工作：第一,对分词词典机制的改进,改进后的词典针对中文信息中二字词所占比例多和汉语中心语偏后的特点,采用双字哈希表的结构(首字哈希表和尾字哈希表),在不提升已有典型词典的空间和维护复杂度的前提下,实现了词条的快速匹配。第二,歧义的检测与处理,现阶段歧义的识别大多是利用双向最大匹配算法,由于双向匹配算法匹配次数较多,出现了回溯正向最大匹配算法,该算法采用回溯词向后推进一个汉字的方式来检测链长为1词簇为2的交集型歧义,减少了歧义检测时与词典的匹配次数,但该方法存在两点缺陷,一是它只能检测链长为1词簇为2的交集型歧义,不能识别链长为1的其他类型歧义和链长为2的交集型歧义,其歧义识别能力有限；另一个是对未发生交集型歧义的字段也进行碎片整理,造成了重复匹配问题。本文针对这两点缺陷在该算法的基础上增加了一个链长为1词簇为3的交集型歧义检测模块,增加之后的算法不仅能识别链长为1的交集型歧义,还能识别链长为2的交集型歧义,同时利用计数方式,对连续发生交集型歧义的字段利用规则与统计结合的方式进行集中消岐,集中消岐方式避免了碎片整理时对没有发生交集型歧义的字段的重复匹配问题,降低了改进算法的时间复杂度。第三,未登录词的识别,本文结合改进算法利用已有识别机制的概率模型与规则相结合的方式来识别未登录词。在大量语料之上的测试结果表明,在提高切分速度的同时,本文提出的组合型中文分词算法不仅提高了切分精度,还可以识别未登录词。系统在整体性能上取得了较满意的效果。

其他文献

美国商业银行信贷风险管理研究

商业银行信贷风险管理是风险管理体系中的一部分，并且是最为重要的一部分，是《巴塞尔资本协议I》、《巴塞尔资本协议II》重点约束的风险类别，更是商业银行经营管理的核心部分。

学位

商业银行信贷风险管理美国《巴塞尔协议》

论胎盘的法律属性及其规制

人体胎盘是出生婴儿的相伴物,具有一定的价值性,时下的“人胎宴”引发了人们对胎盘的激烈争论,胎盘的法律属性在理论上尚有模糊,从民法理论及社会伦理角度对胎盘的法律属性、

期刊

胎盘法律属性法律规制

骨髓腔穿刺工具的研究进展

骨髓腔穿刺输液(IO)是一种快速、有效、简便,并且容易操作、穿刺成功率较高的输液方法。美国心脏协会(AHA)早在《2005 年心脏复苏指南》中就明确提出了推荐使用IO,此方法适用

期刊

骨髓腔穿刺穿刺工具研究进展

浅淡儿童发展心理学在小学低年段数学教学中的应用

小学低年段数学教学应遵循儿童发展心理学的特点进行教学活动。教师只有遵循了小学生心理发展的特点,因材施教,才能有效提高教学效率。本文阐明了小学低年段儿童的心理发展特

期刊

小学低年段发展心理学数学教学

广播财经类节目如何在新常态中呈现新的亮点

在现代大众传媒发展持续不断发展的背景下,广播财经类节目也进入到转型的关键时期,面临着重大的机遇和挑战。本文首先对当前国内广播财经类节目的发展方向进行了探索,从节目

期刊

广播财经类节目节目内容节目形象发展定位

基于大学生网购体验的搜索引擎模型研究

随着大数据时代来临,互联网信息量海量倍增,搜索引擎能为用户提供一个查找海量信息的快速入口。搜索引擎的优化概念历经了网站内容优化、网站的外链接与内链接优化两个阶段后

学位

大学生用户研究网购体验搜索体验交互设计

补片技术修复肩袖损伤的应用研究

肩袖巨大撕裂单纯手术缝合后复发率高达50%~70%,学者们提出肩袖补片修补可增加肩袖生物力学性能。采用哪种材料的补片更有效地恢复其生理功能成为当今研究热点。肩袖补片分为

期刊

肩袖撕裂补片材料组织重建支架

格律诗的语言特点研究

本文旨在对格律诗的语言特点有所研究、有所发现,一点体悟,管窥蠡测,宋人献曝,若益于同仁点滴,则我至为欣悦。

期刊

格律诗唐宋语言特点押韵规则平仄格式对仗要求重字

公交车辆可视监控与智能调度系统的设计与实现

随着城市经济的迅速发展和规模的不断扩大，城市道路拥堵现象日益严重，公交作为市民出行的重要手段，有需要采用先进的手段，结合道路状况有计划的出行。此外，公交车内是人员密集的封

学位

智能公交现场监控调度监控运营管理

模型预测新疆乌鲁木齐地窝堡国际机场客流量的方法和效果分析

机场客流量的预测对于基础未来规划和发展具有重要意义。文章利用灰色系统理论模型和指数平滑模型对新疆乌鲁木齐地窝堡国际机场的客流量进行了预测,并对预测效果进行了总结

期刊

机场客流量灰色系统理论指数平滑

组合型中文分词方法的研究

与本文相关的学术论文