基于机械切分和标注的中文分词研究

被引量 : 0次 | 上传用户:teer197841
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算技术和互联网的发展使信息量呈指数级增长,人工的查找和分析已经不能满足应用的要求。信息处理特别是自然语言处理变得日益重要。要进行自然语言处理,就必须让计算机“理解”人类的语言。“理解”的第一步就是进行词法分析,即分词技术。将中文字符串切分成有意义的词序列的过程即中文分词过程。中文分词是中文信息处理的基础。中文分词的方法大致可以分为三类:机械分词、统计分词和语义分词。机械分词是一种重要的粗分方法,在很多领域得到应用。作为统计分词方法的一种,近年提出的标注方法在国际中文分词评测中表现突出。在此背景下,本文对机械切分和标注方法进行深入研究,并结合搜索引擎这个具体应用,给出了一个同时采用机械分词和标注分词的模型RMT(Reverse Matching and Matching and Tagging)。RMT在索引阶段同时采用多种机械分词方法,保留不同的分词结果,分别建立索引;在搜索阶段,由于用户输入的关键字较短,同时采用机械分词和标注分词,这样既保证了能够快速返回搜索结果,也可以有效的发现新词并扩充词库。RMT的机械分词使用了一种先进的词典结构,可以提高建立索引和进行搜索引擎的速度。开发了一个基于Lucene的搜索引擎系统,按照模型RMT对该搜索引擎的分词模块进行了改进,测试结果表明,RMT模型适合用于搜索引擎。标注分词中需要使用语料库进行机器学习,本文通过对机器学习模型的研究,在CRF++的基础上对机器学习模型进行优化。优化后的模型可以为字强制指定标注,将训练好的二进制模型导出为文本模型。实验结果表明,所进行的优化可以有效的提高分词速度。
其他文献
新农村合作医疗制度是我国针对于农民看病难的问题推出的农民医疗保障体系,当今的社会是个信息化的社会,新农村合作医疗信息化建设也在随着制度的推广而进行中。目前我国新农
为查明多不饱和脂肪酸和维生素E水平对氨氮胁迫下瓦氏黄颡鱼生长、抗氧化及免疫应答的缓释作用,以体质量0.99±0.01 g的瓦氏黄颡鱼幼鱼为研究对象,开展为期60天的慢性氨氮胁
建立了高效液相色谱(HPLC)-二级阵列检测器(DAD)同时测定芦荟中8种蒽醌类物质(芦荟苷B、芦荟苷A、大黄素-8-O-葡萄糖苷、芦荟大黄素、大黄酸、大黄素、大黄酚、大黄素甲醚)的方法。
课程建议与改革是提高教学质量的核心,而高职院校的发展必须以校企合作为指导思想,实现合作办学,合作发展。四川信息职业技术学院院数控设备应用与维护专业与典型企业,在育人
"行动导向"理念起源于德国,如何将其融入高职《会计实训》教学中,提高会计实训的效果,提高学生综合职业能力,本文分别从日常教学各方面探索行动导向教学模式在高职《会计实训》
农产品初加工是农业产业化发展的关键环节,县域内农产品加工业的发展水平是当地农业产业化程度的重要标志。本文在研究调查靖远县枸杞产地烘干设施建设的基础上,按照农业部农
我国职业教育起步早但发展较为缓慢,新中国职业教育积极寻求国际交流与合作,不断借鉴、吸收先进经验,构建中国特色职教体系。
论述了音频D类功率放大器的全桥PWM改进方案,并用模拟与数字的方法实现.利用这种方法实现的D类功率放大器具有高效率高性能的特点,并能降低滤波器性能的要求.
为有效降低岩巷掘进时产生的粉尘的浓度,以煤矿现阶段的自动化技术为基础,采用红外热释智能喷雾、耙装机转载点自动喷雾并结合综合防尘技术。实践表明,自动化综合防尘技术有
本文描述频段为100~1000MHz的同轴双六端口自动网络分析仪的设计、校准、性能及实验结果。