基于机械切分和标注的中文分词研究

被引量 : 0次 | 上传用户：teer197841

【摘要】

：

计算技术和互联网的发展使信息量呈指数级增长,人工的查找和分析已经不能满足应用的要求。信息处理特别是自然语言处理变得日益重要。要进行自然语言处理,就必须让计算机“理

【作者】

：

王靖

【发表日期】

：

2009年期

【关键词】

：

中文分词机械分词标注条件随机场搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

计算技术和互联网的发展使信息量呈指数级增长,人工的查找和分析已经不能满足应用的要求。信息处理特别是自然语言处理变得日益重要。要进行自然语言处理,就必须让计算机“理解”人类的语言。“理解”的第一步就是进行词法分析,即分词技术。将中文字符串切分成有意义的词序列的过程即中文分词过程。中文分词是中文信息处理的基础。中文分词的方法大致可以分为三类:机械分词、统计分词和语义分词。机械分词是一种重要的粗分方法,在很多领域得到应用。作为统计分词方法的一种,近年提出的标注方法在国际中文分词评测中表现突出。在此背景下,本文对机械切分和标注方法进行深入研究,并结合搜索引擎这个具体应用,给出了一个同时采用机械分词和标注分词的模型RMT(Reverse Matching and Matching and Tagging)。RMT在索引阶段同时采用多种机械分词方法,保留不同的分词结果,分别建立索引;在搜索阶段,由于用户输入的关键字较短,同时采用机械分词和标注分词,这样既保证了能够快速返回搜索结果,也可以有效的发现新词并扩充词库。RMT的机械分词使用了一种先进的词典结构,可以提高建立索引和进行搜索引擎的速度。开发了一个基于Lucene的搜索引擎系统,按照模型RMT对该搜索引擎的分词模块进行了改进,测试结果表明,RMT模型适合用于搜索引擎。标注分词中需要使用语料库进行机器学习,本文通过对机器学习模型的研究,在CRF++的基础上对机器学习模型进行优化。优化后的模型可以为字强制指定标注,将训练好的二进制模型导出为文本模型。实验结果表明,所进行的优化可以有效的提高分词速度。

其他文献

基于SaaS模式的新农村合作医疗信息系统服务托管的研究

新农村合作医疗制度是我国针对于农民看病难的问题推出的农民医疗保障体系,当今的社会是个信息化的社会,新农村合作医疗信息化建设也在随着制度的推广而进行中。目前我国新农

学位

SaaSWSS多重租赁UI设置可扩展

多不饱和脂肪酸和维生素E水平对氨氮胁迫下瓦氏黄颡鱼生长、抗氧化及免疫应答的影响

为查明多不饱和脂肪酸和维生素E水平对氨氮胁迫下瓦氏黄颡鱼生长、抗氧化及免疫应答的缓释作用,以体质量0.99±0.01 g的瓦氏黄颡鱼幼鱼为研究对象,开展为期60天的慢性氨氮胁

会议

氨氮亚麻油维生素E免疫抗病

高效液相色谱同时测定芦荟中8种蒽醌类物质的含量

建立了高效液相色谱（HPLC）-二级阵列检测器（DAD）同时测定芦荟中8种蒽醌类物质（芦荟苷B、芦荟苷A、大黄素-8-O-葡萄糖苷、芦荟大黄素、大黄酸、大黄素、大黄酚、大黄素甲醚）的方法。

期刊

蒽醌超声提取高效液相色谱芦荟

基于工作过程的数控设备应用与维护专业核心课程开发

课程建议与改革是提高教学质量的核心,而高职院校的发展必须以校企合作为指导思想,实现合作办学,合作发展。四川信息职业技术学院院数控设备应用与维护专业与典型企业,在育人

期刊

专业核心课程校企合作开发

行动导向教学模式在高职《会计实训》中的应用

＂行动导向＂理念起源于德国,如何将其融入高职《会计实训》教学中,提高会计实训的效果,提高学生综合职业能力,本文分别从日常教学各方面探索行动导向教学模式在高职《会计实训》

期刊

行动导向会计实训教学

靖远县枸杞产地初加工烘干设施本地化设计初探

农产品初加工是农业产业化发展的关键环节,县域内农产品加工业的发展水平是当地农业产业化程度的重要标志。本文在研究调查靖远县枸杞产地烘干设施建设的基础上,按照农业部农

期刊

枸杞初加工设计探讨

新中国职业教育国际交流与合作研究

我国职业教育起步早但发展较为缓慢,新中国职业教育积极寻求国际交流与合作,不断借鉴、吸收先进经验,构建中国特色职教体系。

期刊

新中国职业教育国际交流合作

D类音频功率放大器的全桥PWM改进方案与实现

论述了音频D类功率放大器的全桥PWM改进方案,并用模拟与数字的方法实现.利用这种方法实现的D类功率放大器具有高效率高性能的特点,并能降低滤波器性能的要求.

期刊

D类放大器脉宽调制CPLD数字音频功率放大器

自动化综合防尘技术在岩巷掘进中的应用

为有效降低岩巷掘进时产生的粉尘的浓度,以煤矿现阶段的自动化技术为基础,采用红外热释智能喷雾、耙装机转载点自动喷雾并结合综合防尘技术。实践表明,自动化综合防尘技术有

期刊

岩巷掘进粉尘浓度自动化智能喷雾综合防尘

100～1000MHz同轴双六端口自动网络分析仪的研制

本文描述频段为100～1000MHz的同轴双六端口自动网络分析仪的设计、校准、性能及实验结果。

期刊

六端口电路热敏电阻短路器六端口反射计复反射系数六端口结功率计匹配终端微波参数

基于机械切分和标注的中文分词研究

其他学术论文