论文部分内容阅读
语篇关系分类(Discourse Relation Classification)是指对自然语言文本中所含的逻辑关系(如因果关系、转折关系和并列关系等)进行自动分类,从而帮助计算机理解文本的篇章结构,实现自然语言理解(Natural Language Understanding)。语篇关系分类作为自然语言处理(Natural Language Processing)的一个模块,可以运用到许多相关的下游应用中,例如:自动翻译系统,自动问答系统,自动文摘系统等。根据是否存在连接词(如‘"But"、"And"和‘’However”等),语篇关系可以分为显式语篇关系(Explicit Discourse Relation)和隐式语篇关系(Implicit Discourse Relation)。具有显式语篇关系的文本含有能够表明文中所含语篇关系的连接词,而具有隐式语篇关系的文本则不含连接词。隐式语篇关系分类的难度较大,分类准确率偏低,并且由于隐式语篇关系在自然语言文本中的占比约为40%,受隐式语篇关系的影响,语篇关系分类的整体准确率偏低。因此,本文着重研究隐式语篇关系分类。隐式语篇关系分类准确率偏低的一个重要原因是缺少连接词。以往的研究工作大多使用上下文的语义、语法和句子结构等特征直接判断隐式语篇关系,而忽略连接词的重要作用。因此,文本创新性地提出,在隐式语篇关系分类过程中加入连接词预测,通过使用连接词这一重要特征来提高隐式语篇关系的分类准确率。从连接词预测的想法出发,本文提出了基于无监督学习、监督学习和半监督学习的三种方法。第一,基于无监督学习的方法采用未标注的训练语料构建语言模型,然后通过计算测试文本序列出现的概率预测连接词,最后利用预测获得的连接词判断文本中包含的语篇关系。第二,基于监督学习的方法从已标注的训练语料中抽取语言学特征,然后使用机器学习算法训练分类器并预测连接词,预测获得的连接词将用于隐式语篇关系的分类。第三,基于半监督学习的方法在多任务学习的框架下,使用标注语料训练隐式语篇关系分类模型,同时使用未标注语料训练连接词预测模型,连接词预测模型作为辅助任务用于优化隐式语篇关系的分类模型,以提高隐式语篇关系的分类准确率。