论文部分内容阅读
计算技术和互联网的发展使信息量呈指数级增长,人工的查找和分析已经不能满足应用的要求。信息处理特别是自然语言处理变得日益重要。要进行自然语言处理,就必须让计算机“理解”人类的语言。“理解”的第一步就是进行词法分析,即分词技术。将中文字符串切分成有意义的词序列的过程即中文分词过程。中文分词是中文信息处理的基础。中文分词的方法大致可以分为三类:机械分词、统计分词和语义分词。机械分词是一种重要的粗分方法,在很多领域得到应用。作为统计分词方法的一种,近年提出的标注方法在国际中文分词评测中表现突出。在此背景下,本文对机械切分和标注方法进行深入研究,并结合搜索引擎这个具体应用,给出了一个同时采用机械分词和标注分词的模型RMT(Reverse Matching and Matching and Tagging)。RMT在索引阶段同时采用多种机械分词方法,保留不同的分词结果,分别建立索引;在搜索阶段,由于用户输入的关键字较短,同时采用机械分词和标注分词,这样既保证了能够快速返回搜索结果,也可以有效的发现新词并扩充词库。RMT的机械分词使用了一种先进的词典结构,可以提高建立索引和进行搜索引擎的速度。开发了一个基于Lucene的搜索引擎系统,按照模型RMT对该搜索引擎的分词模块进行了改进,测试结果表明,RMT模型适合用于搜索引擎。标注分词中需要使用语料库进行机器学习,本文通过对机器学习模型的研究,在CRF++的基础上对机器学习模型进行优化。优化后的模型可以为字强制指定标注,将训练好的二进制模型导出为文本模型。实验结果表明,所进行的优化可以有效的提高分词速度。