一个基于词典与统计的中文分词算法

被引量 : 0次 | 上传用户:BerrySZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文重点介绍了一个基于字符串匹配与基于统计相结合的中文分词方法,解决了一定条件下的人名,地名,数量词等未登录词以及交集型歧义和自然语言的二义性引起的歧义等问题。本文的算法首先对待分词的字符串进行断句(优先在待分词的字符串中识别和切分出标点符号,以这些符号作为断点,可将原来的字符串分解为较小的串再进基于字符串匹配的分词,从而减少匹配的错误率),然后对断句结果运用正向和逆向最大匹配算法依次进行分词处理,再对处理结果进行比较,如果分词结果不同则表明可能存在歧义,就采用基于统计的方法进行歧义处理,从而提高了分词的准确率。本文设计的算法在两个方面进行了改进,首先是在分词词典方面,将原来单一的词典分为基本词典和特征词词典两个部分。改进了基本分词词典在内存中的存储结构,根据汉语中两字词的数量最多的特点和哈希索引表查找效率高的特点,采用了双字哈希索引结构将词典中的词按前两个字为索引关键字进行存储,同时改进了剩余字串的存储方式,将词剩余字串按词长逆序存放,提高了匹配查找的速度。在匹配过程中结合特征词词典对歧义进行探测和处理,提高了机械分词的准确率,大大提高了对姓名、地名和数量词的正确切分率减少这些词所引起的歧义数量节省了歧义处理时间,提高了分词速度。其次是在统计分词方面的改进,本算法中利用统计方法处理未登录词和歧义。统计方法的最大缺点就是要求字串要在待分析的字符串中出现一次以上,所以基于统计的分词方法的分全率和准确性比较低,针对这一缺点在歧义处理上,我们加入了一些对汉语语言分析所得的规则,来弥补单纯的统计分词方法的不足。本文采取的歧义处理算法是统计与规则相结合的复合歧义处理算法,结合了根据大量语料统计所得的若干规则,以及语言学的一些知识,同时考虑了语言环境在歧义处理上的重要作用。歧义消解结果比较理想,在一定程度上提高了分词的准确性。
其他文献
目的:探讨综合护理干预在呼吸内科重症患者中的应用效果。方法:将呼吸内科接受治疗的重症患者87例随机分为观察组45例和对照组42例,观察组给予综合护理干预,对照组给予常规护
第一部分:不同年龄组智能正常成人血清β-AP1-28含量的放射免疫测定 【目的】 探讨不同年龄组智能正常成人血清β-AP1-28含量与增龄之间的关系。【料与方法】采用平衡饱和
贫困是世界许多国家和地区所面临的难题,在中国也是党和政府多年来一直致力解决的难题。金融扶贫是消除社会贫困问题的一个重要法宝,很多国家都在广泛运用。我国实施金融扶贫
目的:观察半夏泻心颗粒对小肠蠕动推进功能的影响。方法:利用黑色墨汁作为指示剂,测量墨汁在肠道的推进距离,观察半夏泻心颗粒高、中、低剂量及低剂量加西沙比利对小肠蠕动推进
目的观察对比在胆囊结石合并高血压患者应用腹腔镜手术治疗中的护理措施,进行其护理效果的分析评价。方法择取胆囊结石合并高血压病作为研究对象,共计30例,所有患者均接受腹
班组建设是石油科研单位基层建设的重点,是提升基层管理水平不可缺少的重要环节,但一些科研单位班组建设存在思想认识、建设载体和建设模式不清晰等问题。为此,结合科研单位
旅游业具有“无烟产业”和“永远的朝阳产业”的美称,是集食、住、行、游、购、娱等服务为一体的综合性大产业,是现代服务业的重要组成部分,对其他产业的发展有明显的带动作用,对
视觉化传播是电子媒介技术发展的产物,以视像为主要符号的视觉化传播成为当代大众传播的主要特征。视觉化的传播冲击了本土音乐的生存模式,给传统音乐带来新的理念。传统音乐的
深圳华侨城仿埃菲尔铁塔是“世界之窗”重要景点之一,其主体工程严格按法国巴黎埃菲尔铁塔的1/3比例缩尺设计。铁塔高103 m ,占地面积1 800 m 2。全塔除装饰拱基座为钢筋混凝土浇制外,其余均
根据FAO公布的数据,综合简介世界柚子主产国20年来柚子种植面积、产量及贸易发展的趋势。