论文部分内容阅读
词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后续应用系统的性能。词法分析作为基础性处理步骤,其前期的错误会沿处理链条扩散,并最终影响面向终端用户的应用系统的质量。文语转换就是对词法分析要求比较严格的应用之一。这项应用是当今计算机智能应用领域的研究热点,它可以提高人机交互性能。但现阶段汉语文语转换中存在的普遍问题是:合成语音的自然度不够高。词法分析作为文语转换的前期处理阶段,该领域一些难点问题的处理结果对于后期语音合成的效果十分重要。
本文首先对中文词法分析的研究内容、国内外研究成果、主要方法进行了详细的调研。通过比较大量的研究成果发现,目前在中文词法分析研究中,无论足针对哪个具体问题,主要有基于规则和基于统计两种方法。但是,利用基于统计方法的缺陷在于,它是以舍弃概率低事件为前提的,而且统计信息不能很好地表现词语内部结构特征,也难于将语言学信息融合到统计模型中去。利用基于规则方法的缺陷则在于,受规则获取方式所限,无法使用有限的规则全面解决丰富多样的语法现象。作者认为,基于统计的方法在目前条件下优于人工总结规则的方法,需要时将两者结合在一起也是一种不错的选择。
在此基础上,本文对交集型歧义字段消解、未登录词词性标注、以及人名译名识别等问题进行了深入地研究,这些问题对文语转换中韵律分析的效果都将产生较大的影响。
第一,基于条件随机场的交集型切分歧义消解模型。交集型歧义字段是中文文本中经常出现的一种切分歧义现象。针对这类歧义的消解工作,一直以来受到很多学者的关注。目前对于交集型歧义字段的研究主要是以三字长交集型歧义字段为研究对象展开的,对于其它形态的交集型歧义字段的研究不是很多。本文提出了一种基于条件随机场的交集型切分歧义消解方法,该方法针对多种形态的交集型歧义字段完成一体化消解。首先通过正向最大匹配和逆向最大匹配相结合的分词方法,发现语料中的交集型歧义字段并进行标记,将其用于模型的训练。文中提出将统计特征、字段内部特征以及上下文特征三类特征应用于构建歧义消解模型,并通过实验比较各类特征在歧义消解中的作用。在开放测试中,本文提出模型的正确率最高达到93.81%。
第二,在未登录词词性标注中错误驱动学习的应用:当前,采用较多的词性标注方法是基于隐马尔可夫模型的词性标注方法,这类模型虽然具有较好的标注效果,但是它不易融入丰富的上下文特征,并且在对未登录词进行标注时,未登录词发射概率的取值无法直接从统计信息中获得。针对这些问题,本文将基于转换的错误驱动学习方法与基于隐马尔可夫模型相结合,共同完成词性标注任务。基于转换的错误驱动学习方法可以通过规则模板的控制,利用更多的上下文信息,从而提高对未登录词词性标注的正确率。实验结果证明,本文提出的词性标注方法能够使未登录词的标注正确率得到有效地提高。与此同时,实验数据表明兼类词的标注正确率也得到了提升。
第三,基于条件随机场与支持向量机混合模型的人名译名识别研究。人名译名是一种常见的未登录词,它是指根据发音翻译成中文字串的人名。由于英、美、法、德等国人名结构复杂,而译名又是根据发音翻译得到的,所以这类未登录词的词长跨度很大,短则只需要一个汉字,多则需要十多个汉字。这类词的韵律处理,特别是词长较长的人名译名的韵律处理影响着语音合成的自然度。本文首先对实验中使用的语料进行了加工,将人名译名与其它类型的人名区分开,并将以全名形式出现的人名译名进行截取。在此基础上,本文提出条件随机场模型与支持向量机模型相结合的人名译名识别模型。实验比较了条件随机场模型和支持向量机模型的预测效果,实验结果显示在使用相同特征的情况下,条件随机场识别模型具有较高的识别正确率,支持向量机模型具有较高的识别召回率。将上述模型结合在一起并应用一些规则后,混合模型的识别正确率最终可达到97.18%。