论文部分内容阅读
当前随着互联网的快速发展,信息急剧膨胀,如何管理和查找信息成为信息科学一个难题。自然语言处理的句法分析所研究的不仅仅是如何获取句子的结构,还要研究在句法分析的各个层面如何利用句法分析的技术实现有效的信息组织和管理,以及精确的信息查询。句子主干分析是自然语言处理中的关键性问题之一,其主要任务就是自动识别句子的主干成分。汉语句子主干分析问题的解决对于机器翻译、信息抽取和自动文摘等自然语言处理领域都有着极其重要的意义。本文首先分析汉语句子主干分析的现状,指出汉语句子主干分析的困难和汉语句子主干分析的语法和语义意义,通过对汉语句子主干的语法特性进行分析,本文把最大熵模型引入句子主干分析。最大熵模型具有简洁、通用的优点,能够灵活的选择语言特征,它把语言模型和计算模型分开,使用最大熵模型可以不用关心语言内部的细节。本文经过分析汉语句子主干的语法、语义特征,选择了适合于主干分析的特征集合。鉴于汉语句子之间成分的相关性,本文在最大熵模型的基础上提出一种多层最大熵模型,该模型的底层最大熵模型利用句子里的上下文特征识别主干词候选项,高层最大熵利用底层最大熵模型的计算结果结合句子内的远距离特征和句子之间关系来对底层最大熵模型识别到的主干词候选集进行分析并得到最终的分析结果。本文在最大熵模型进行识别之前,利用汉语语法对分词和词性标注后的句子进行预处理,包括句子的断句、单句和复句的划分,简单的词组和短语识别,为最大熵模型提供主干候选集。由于缺少标注了主干的训练语料,本文提出一种基于语境相似度的最大熵模型的平滑算法,通过比较汉语词的上下文,得到词之间的语境相似度,利用语境相似的词对训练语料中未出现的词进行平滑,以提升模型在小语料的情况下的性能。实验证明本文利用多层最大熵模型对汉语句子进行识别的方法是有效的,在只有比较小的训练语料的情况下,模型取得比较高的识别准确率,在本文方法的基础上可以进一步进行组块的分析,本文提出的平滑算法也可以应用到隐马尔科夫模型等统计语言模型中去。