论文部分内容阅读
语义依存是中文语义的深层分析,完善的语义表示体系对语义依存分析有重要作用。但是,目前公开且规范的中文语义依存标注语料还比较少。HIT语义依存是第一个被用来组织公开语义评测的语料,具备良好的规范性和可用性,但是目前来看,HIT语义依存存在一些问题,比如标签过多且某些标签出现频率过低;某些标签之间易混淆等。因此,需要进一步修订和完善。本文在HIT语义依存基础上,结合语言学理论,提出一套理论基础更强、层次更清晰、语义关系更规范的依存体系。另一方面,该体系旨在更全面地表示汉语的语义,而汉语中广泛存在词语之间的交叉修饰以及一个词与多个其他词语具有语义关联的语言现象。而依存树有树形结构限制,在某些情况下要省略一些依存弧或改变一些依存弧,这就丢失了一部分句子的语义。本文的语义体系打破依存树结构限制扩展到依存图,允许某些节点存在多个父亲,同时允许依存弧交叉,从而更加适应汉语语义的表达。语义依存分析主要包括两个问题,依存表示体系的确定和自动语义分析方法的设计。本文的另一个工作就是设计一个能够处理语义依存图的分析系统。通过对依存图的分析可以发现依存图完整包含依存树,因此本文提出一个串行系统来实现依存图的自动分析。先利用依存树分析器得到依存树的分析结果,在此基础上,用规则为句子提取依存图候选弧,并用SVM分类器分类出真正的依存弧添加到依存树上,最后为选出的依存弧通过多分类技术赋予依存标签。依存图分析系统串行工作,依存树分析是依存图分析的基础,本文从三个方面提升语义依存树的分析性能,分别是在模型中融合句法信息、词的聚类信息以及从大规模未标注语料中提取的高精度词对信息。由于语义依存和句法依存在依存弧和依存标签上存在相似性,句法依存对语义依存具有一定指导作用;词的聚类信息使得聚在同一类别中的词语带有相近的语义信息,这为训练语料中出现次数较少的词语提供了帮助信息。语义依存的实质是在具有直接语义关联的词语间建立依存弧,因此在模型中融入高精度搭配词对作为指导信息。三种方法分别对语义标签的准确率提升了0.62%、0.74%和1.65%。