基于统计机器学习的中文词法分析研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:kingwangcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后续应用系统的性能。词法分析作为基础性处理步骤,其前期的错误会沿处理链条扩散,并最终影响面向终端用户的应用系统的质量。文语转换就是对词法分析要求比较严格的应用之一。这项应用是当今计算机智能应用领域的研究热点,它可以提高人机交互性能。但现阶段汉语文语转换中存在的普遍问题是:合成语音的自然度不够高。词法分析作为文语转换的前期处理阶段,该领域一些难点问题的处理结果对于后期语音合成的效果十分重要。   本文首先对中文词法分析的研究内容、国内外研究成果、主要方法进行了详细的调研。通过比较大量的研究成果发现,目前在中文词法分析研究中,无论足针对哪个具体问题,主要有基于规则和基于统计两种方法。但是,利用基于统计方法的缺陷在于,它是以舍弃概率低事件为前提的,而且统计信息不能很好地表现词语内部结构特征,也难于将语言学信息融合到统计模型中去。利用基于规则方法的缺陷则在于,受规则获取方式所限,无法使用有限的规则全面解决丰富多样的语法现象。作者认为,基于统计的方法在目前条件下优于人工总结规则的方法,需要时将两者结合在一起也是一种不错的选择。   在此基础上,本文对交集型歧义字段消解、未登录词词性标注、以及人名译名识别等问题进行了深入地研究,这些问题对文语转换中韵律分析的效果都将产生较大的影响。   第一,基于条件随机场的交集型切分歧义消解模型。交集型歧义字段是中文文本中经常出现的一种切分歧义现象。针对这类歧义的消解工作,一直以来受到很多学者的关注。目前对于交集型歧义字段的研究主要是以三字长交集型歧义字段为研究对象展开的,对于其它形态的交集型歧义字段的研究不是很多。本文提出了一种基于条件随机场的交集型切分歧义消解方法,该方法针对多种形态的交集型歧义字段完成一体化消解。首先通过正向最大匹配和逆向最大匹配相结合的分词方法,发现语料中的交集型歧义字段并进行标记,将其用于模型的训练。文中提出将统计特征、字段内部特征以及上下文特征三类特征应用于构建歧义消解模型,并通过实验比较各类特征在歧义消解中的作用。在开放测试中,本文提出模型的正确率最高达到93.81%。   第二,在未登录词词性标注中错误驱动学习的应用:当前,采用较多的词性标注方法是基于隐马尔可夫模型的词性标注方法,这类模型虽然具有较好的标注效果,但是它不易融入丰富的上下文特征,并且在对未登录词进行标注时,未登录词发射概率的取值无法直接从统计信息中获得。针对这些问题,本文将基于转换的错误驱动学习方法与基于隐马尔可夫模型相结合,共同完成词性标注任务。基于转换的错误驱动学习方法可以通过规则模板的控制,利用更多的上下文信息,从而提高对未登录词词性标注的正确率。实验结果证明,本文提出的词性标注方法能够使未登录词的标注正确率得到有效地提高。与此同时,实验数据表明兼类词的标注正确率也得到了提升。   第三,基于条件随机场与支持向量机混合模型的人名译名识别研究。人名译名是一种常见的未登录词,它是指根据发音翻译成中文字串的人名。由于英、美、法、德等国人名结构复杂,而译名又是根据发音翻译得到的,所以这类未登录词的词长跨度很大,短则只需要一个汉字,多则需要十多个汉字。这类词的韵律处理,特别是词长较长的人名译名的韵律处理影响着语音合成的自然度。本文首先对实验中使用的语料进行了加工,将人名译名与其它类型的人名区分开,并将以全名形式出现的人名译名进行截取。在此基础上,本文提出条件随机场模型与支持向量机模型相结合的人名译名识别模型。实验比较了条件随机场模型和支持向量机模型的预测效果,实验结果显示在使用相同特征的情况下,条件随机场识别模型具有较高的识别正确率,支持向量机模型具有较高的识别召回率。将上述模型结合在一起并应用一些规则后,混合模型的识别正确率最终可达到97.18%。
其他文献
工作流管理系统是实现工作流自动化执行和流程定义的平台,它实现了业务逻辑与执行活动的分离,支持业务流程的分析和规范化定义以及业务单元的灵活组装。工作流技术可以降低复杂
本文是针对计算机辅助几何设计与制造(CAGD/CAM)中的曲线曲面造型问题,运用一种基于曲线融合的思想所进行的基础理论和应用的全面总结。其内容包括:基于融合的样条曲线造型方
遗传算法是一种十分优秀的解搜索算法。它有着天生的并行特性,因而并行遗传算法通常被设计应用于计算量大的理论计算和工程设计等诸多方面。但并行程序设计向来都较为复杂,并
随着云计算技术的发展和对云计算技术应用的不断增长,云计算系统的规模也随之增长,从而造成了云计算系统分布于多个数据中心的情况。云存储子系统是云计算系统的重要组成部分
学位
大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)是语音识别研究的重点和难点之一,其涉及了声学模型、语言模型、搜索算法等多方面的知识和技
随着信息时代的到来,通过网络传递信息成为生活中一种必不可少的通信手段,在进行网络通信的过程中,服务器系统提供了有力的支持。当今的网络系统是以IP协议为基础,以服务器系
微阵列技术的快速发展使得同时测量成千上万个基因的表达情况成为可能,并被广泛地用于研究不同癌症和肿瘤的基因表达模式,为从分子水平研究疾病机理以及疾病诊断和预后提供了一
随着计算机的普及以及GIS技术的发展,开发基于GIS的高效准确的土地定级系统已经成为土地定级行业的迫切需求。论文通过分析土地定级工作的现状,提出了土地定级系统的需求,完
伴随着计算机技术、移动通讯技术和互联网技术的迅速发展,计算方式也在不断地变化。当今新兴的移动计算模式使人们在任何时候、任何地点访问自己需要的信息成为可能。然而移