分词词典的构建

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:shenxiaoxia123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网上数字化信息资源的不断增长,怎么样自动处理这些信息已成为目前一个重要的研究课题,汉语自动分词在中文海量信息处理中起着非常重要的作用。由于汉字之间没有明显的分词标志,如果简单地以单个汉字作为信息处理的基本单元,既缺乏必要的语义表达,又带来大量的冗余信息,因而分词算法在中文信息处理的各个领域被广泛应用。现有的汉语自动分词系统大都是先基于词典进行匹配分词,再利用句法语义关系和统计方法进行歧义处理和未登录词处理。分词词典机制的优劣直接影响到分词系统的速度和效率,因而建立高效快速的分词词典机制势在必行。常用的分词词典机制有:基于逐字二分的词典机制、整词二分的词典机制和基于TRIE索引树的词典机制。在对前面分词词典机制的分析中,前面的三种词典都是以首字建立索引表,通过统计,我们知道在汉语中,二字词和一字词的出现概率远远大于其它字长的词,依据这一现象,我们提出了以词的前两字为关键字建立索引表的想法。该索引表是一个二维数组,该算法是通过将前两字的汉字内码与数组下标建立对应关系来直接确定数据项的位置的,这样通过二维数组可以直接把二字词判断出来,然后再进行下面的查询匹配,这种方法可以使查询次数大大减少,从而使分词速度进一步加快。本文在对语料进行选取,加工的基础上,最终建立了一个基于二字词检测的分词词典试验系统,该系统具有自动分词、词语查询和词典维护的功能。
其他文献
在中文信息处理中,汉语的自动分词是一个难点。本文对汉语自动分词的方法及已有的词典机制进行了探讨。
今年以来,面对新冠肺炎疫情影响和国内外经济运行不确定性的增大,党中央国务院在"六稳"方针的基础上,明确提出了"六保"新任务。在"六保"中,十分鲜明的一条就是"保市场主体",
在橡胶加工领域,偏析行为主要指补强填料(炭黑、白炭黑、碳纤维等)在胶料中的不均匀分布。本文借助RPA、DMA、TEM等动态力学方法探讨炭黑在低硬度NR/BR并用胶中的偏析行为。首先
目的调查北京某医院艾滋病门诊接受抗病毒治疗的HIV感染者的高血压、高血糖的患病率,分析与高血压、高血糖相关的影响因素,为今后更好地控制病人的血压、血糖提供参考依据。