论文部分内容阅读
随着自然语言处理技术的迅速发展,机器翻译、信息检索、信息抽取、自动问答、文本连贯性评价等在内的研究都有了较大的突破,但发展的同时也面临着瓶颈。在语言的语义理解方面,计算机还无法处理传统语言学中对于句群层面的一些抽象定义。自然语言处理技术要想有进一步的提升,还须在句群层面的语义分析、语义理解上提供相关的理论和技术支持。对于汉英机器翻译,信息检索,自动问答等的研究来说,理想的模型也应该是建立在语篇或者句群层面上。因为句子本身所能承载的上下文之间的信息过少,从单个句子到段落、篇章的语义过渡又太大。为了在顺应传统语言学思想的基础上,能够更好地做到对段落、篇章进行处理,句间关系这一概念被引入计算语言学中。句间关系即为两个文本单元(句与句)之间存在的关联。加强对句间关系的研究也就成了自然语言处理的新发展对语法研究提出的新要求。句间关系作为句群、语义理解的重要内容,获得了学术界越来越多的关注。查阅语言学相关资料我们发现存在“就是”的句子在句间关系的研究上具有很重要的研究价值,句间会出现传统语言学12种关系中的所有情况。于是本文在对存在“就是”句子的研究中,对存在“就是”的单句和与这个句子最靠近的单句间的关系进行了探讨,实验过程中我们使用了规则和机器学习相结合的方法。在语料的选取上,由统计一致性指标Kappa值确定出来的人员对从北京大学CCL语料库随机抽选出的句子进行标注,将标注的结果作为人工判断的结果。在规则的提取中,我们首先查阅语言学相关方面,提取出能够用来判别存在“就是”句子句间关系的一些特征,这些特征分为存在“就是”句子所特有的特征,和普适的特征,然后将特征写入特征向量。为了提高准确率,在特征的写入中,我们加强了特有特征的识别,即增加一维向量用来存储明显关系特征(特有特征),之后使用分类工具进行建模(机器学习),再使用模型来预测。将预测的结果和人工判断的结果进行比较,得出准确率、召回率、F1值,实验结果表明,对特有特征进行加强后的实验总体准确率较之加强前平均提高了两个百分点。这里分类工具我们使用的是SVM和逻辑回归,基于这两个工具进行实验,对比分析实验结果。最后本文对影响实验的因子进行了分析。