基于HMM的汉语词性标注及其改进

来源 :太原理工大学 | 被引量 : 7次 | 上传用户:ocean901024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词性标注是自然语言处理中一个具有重要意义的研究方向,涉及的应用领域非常广泛,在信息处理范畴内起着重要的基础性作用,词性标注的效果直接影响着基于标注结果的各种信息处理的准确度,诸如语法分析、语音识别、文本分类、文本语音转换、信息检索、机器翻译等。词性标注的实现过程中存在着一些难度,如兼类词歧义处理、未登录词处理,以及专有名词的处理等。由于汉语本身的特点以及汉语言学研究现状的限制,汉语词性标注就更加困难和复杂。词性标注的方法有很多,大体上可以归为两类,基于规则的方法和统计的方法,而基于隐马尔可夫模型(HMM)的词性标注正是统计方法的典型例子。虽然HMM在词性标注中的应用已经非常成熟,但如何提高兼类词、未登录词的标注准确率依旧是基于HMM的词性标注研究的重点。本文在标记好的汉语语料库《人民日报(1998年1月)》的基础上,建立二阶隐马尔可夫模型(HMM2),改进针对未登录词的标注,对模型进行训练、测试、评估,从而实现了汉语词性标注。具体如下:(1)由于语料库的选取在词性标注效果中起着重要的影响作用,在测试前对语料库进行了预处理,去除了二级标注和专有名词标记符号(保留专有名词及其词性标注),来提高实验的准确率。(2)一般的HMM在进行词性标注时仅仅依靠前一个词的词性来估计当前词汇的词性,基于语言学知识的考虑,这种方法对上下文语义信息的提取上不够详尽。于是提出了建立HMM2的思想,来增加对上下文语义信息的利用,进而提高词性标注效果的准确度。在建立HMM2时,对训练数据得到的状态转移概率进行了平滑处理;同时,根据测试中实际情况,修正了观测概率的获取方法;并对未登录词进行了处理,以便进一步保证实验的准确率(3)在测试中,传统的Viterbi算法已不能适应改进后的HMM2,于是对Viterbi算法进行了改进和拓展,使其符合修改后的HMM2的需要。经过对一万词汇分别在26个标注集和39个标注集的训练语料下进行开放测试,证明本文改进后的HMM2比一般的HMM、HMM2标注效果好。本文最后对词性标注发展前景进行了展望。
其他文献
随着信息技术的飞速发展,人们对信息技术的依赖达到了前所未有的高度。近年来,人们致力于开发出存储量更大、处理速度更高效和信息存储更加安全的计算平台,在经历了分布式计算、
随着智能机器人研究的不断深入,对人机之间的交互方式提出了更高的要求。将语音识别技术与机器人控制技术相结合,人类通过语音信号来控制机器人,这一智能化的交互方式成为目
局部网络编码作为实用网络编码的一种策略,可观的网络性能增益以及在无线网络中的实用性使其成为当前的研究热点。本文概述了实用网络编码的研究现状,总结了实用网络编码中典
XML技术作为信息交换的有力工具,近年来在数据库和网络服务等领域得到广泛应用。XML解析是XML技术中的关键任务,关系着XML应用的性能。已有的市场化XML解析器通常都是软件实
在联网控制技术飞速发展的今天,自动化技术广泛用于工业、农业、军事、科学研究等方面。M2M也就是机器与机器(MachinetoMachine)的对话,是将数据从一台终端传送到另一台终端
随着互联网技术和多媒体技术的迅猛发展,网络技术和教育技术日益融合,由此构成了一种新兴的教育方式—远程教育。远程教育已成为现代教育技术的重要手段,这种教育方式也越来越被
学位
随着信息产业和通信技术的发展,企业在信息化建设过程中构建起多个异构的信息系统。为了解决网络环境中异构数据库的数据集成和共享问题,更有效地利用这些资源,需要在一个统
本文讨论了二维平面下曲线的可见性问题。我们研究的两个主要内容是:曲线的弱可见多边形算法,沿曲线移动的点的实时可见多边形算法。曲线与直线不同,可能具有复杂的形状与性质
在高校教育环节中,实践教学是提高学生实践能力、培养学生综合能力的主要方法,直接影响着教学质量的好坏。传统的实践教学管理效率低、时效性差、重复性工作多,不能满足管理