论文部分内容阅读
随着计算机技术的发展,人们已经进入了以网络为核心的信息时代,在这个信息急剧膨胀的社会里,如何获取和掌握有用的信息成为了个人、企业及政府关注的重点。在这种环境下,中文信息处理技术成为了科研人员研究和开发的热点,其中最重要的就是中文分词技术。中文分词是将没有特定分界符的汉字序列分割成符合特定语境下汉语语意的词序列的过程,它是中文信息处理的前提和基础,也是制约着中文信息处理技术发展的瓶颈。歧义的消除和未登录词的识别是中文分词技术的难点,也是影响中文分词切分速度和精度的重要因素。近年来,为了提高切分速度和精度,已经出现了很多中文分词的方法,这些方法的改进主要表现在两个方面:对分词词典的改进,这种改进主要通过减少待切分文本与词典的匹配次数来提高分词的速度;对分词算法的改进,此类型的改进主要是通过对自身算法的改进来提高分词系统的歧义处理和未登录词识别的能力。本文结合这两种改进方式,根据当前关键技术研究现状设计了一个综合词典、统计和规则的组合型中文分词方法,该方法兼有对歧义的检测与处理和对未登录词的识别能力。本文对中文分词的词典机制和分词算法进行了详细研究,提出了一个中文分词的解决方案,该方案主要进行了如下三个方面的工作:第一,对分词词典机制的改进,改进后的词典针对中文信息中二字词所占比例多和汉语中心语偏后的特点,采用双字哈希表的结构(首字哈希表和尾字哈希表),在不提升已有典型词典的空间和维护复杂度的前提下,实现了词条的快速匹配。第二,歧义的检测与处理,现阶段歧义的识别大多是利用双向最大匹配算法,由于双向匹配算法匹配次数较多,出现了回溯正向最大匹配算法,该算法采用回溯词向后推进一个汉字的方式来检测链长为1词簇为2的交集型歧义,减少了歧义检测时与词典的匹配次数,但该方法存在两点缺陷,一是它只能检测链长为1词簇为2的交集型歧义,不能识别链长为1的其他类型歧义和链长为2的交集型歧义,其歧义识别能力有限;另一个是对未发生交集型歧义的字段也进行碎片整理,造成了重复匹配问题。本文针对这两点缺陷在该算法的基础上增加了一个链长为1词簇为3的交集型歧义检测模块,增加之后的算法不仅能识别链长为1的交集型歧义,还能识别链长为2的交集型歧义,同时利用计数方式,对连续发生交集型歧义的字段利用规则与统计结合的方式进行集中消岐,集中消岐方式避免了碎片整理时对没有发生交集型歧义的字段的重复匹配问题,降低了改进算法的时间复杂度。第三,未登录词的识别,本文结合改进算法利用已有识别机制的概率模型与规则相结合的方式来识别未登录词。在大量语料之上的测试结果表明,在提高切分速度的同时,本文提出的组合型中文分词算法不仅提高了切分精度,还可以识别未登录词。系统在整体性能上取得了较满意的效果。