基于连接词预测的隐式语篇关系分类

被引量 : 0次 | 上传用户:snowy99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语篇关系分类(Discourse Relation Classification)是指对自然语言文本中所含的逻辑关系(如因果关系、转折关系和并列关系等)进行自动分类,从而帮助计算机理解文本的篇章结构,实现自然语言理解(Natural Language Understanding)。语篇关系分类作为自然语言处理(Natural Language Processing)的一个模块,可以运用到许多相关的下游应用中,例如:自动翻译系统,自动问答系统,自动文摘系统等。根据是否存在连接词(如‘"But"、"And"和‘’However”等),语篇关系可以分为显式语篇关系(Explicit Discourse Relation)和隐式语篇关系(Implicit Discourse Relation)。具有显式语篇关系的文本含有能够表明文中所含语篇关系的连接词,而具有隐式语篇关系的文本则不含连接词。隐式语篇关系分类的难度较大,分类准确率偏低,并且由于隐式语篇关系在自然语言文本中的占比约为40%,受隐式语篇关系的影响,语篇关系分类的整体准确率偏低。因此,本文着重研究隐式语篇关系分类。隐式语篇关系分类准确率偏低的一个重要原因是缺少连接词。以往的研究工作大多使用上下文的语义、语法和句子结构等特征直接判断隐式语篇关系,而忽略连接词的重要作用。因此,文本创新性地提出,在隐式语篇关系分类过程中加入连接词预测,通过使用连接词这一重要特征来提高隐式语篇关系的分类准确率。从连接词预测的想法出发,本文提出了基于无监督学习、监督学习和半监督学习的三种方法。第一,基于无监督学习的方法采用未标注的训练语料构建语言模型,然后通过计算测试文本序列出现的概率预测连接词,最后利用预测获得的连接词判断文本中包含的语篇关系。第二,基于监督学习的方法从已标注的训练语料中抽取语言学特征,然后使用机器学习算法训练分类器并预测连接词,预测获得的连接词将用于隐式语篇关系的分类。第三,基于半监督学习的方法在多任务学习的框架下,使用标注语料训练隐式语篇关系分类模型,同时使用未标注语料训练连接词预测模型,连接词预测模型作为辅助任务用于优化隐式语篇关系的分类模型,以提高隐式语篇关系的分类准确率。
其他文献
随着我国社会经济的不断发展,人们的生活水平与质量有了较大幅度的提升,所以对室内装饰材料提出了更高的要求。人们不但要求室内装饰材料美观耐用,而且还需要满足环保的要求
随着我国智能电网的不断发展,用户对智能电网的要求不断提高。智能电网中远程抄表系统能够解放大量人力、节约成本,大大提高电网的智能化和自动化水平。在各种远程抄表的实现方
挺举预蹲的顺序、节奏、以及预蹲的方式直接影响着上挺的动作效果 ,是上挺过程的关键环节之一。其中预蹲角度和预蹲速度的控制决定挺举动作的成败。
成本控制是企业发展的基础,也是企业增加盈利的最有效途径。采购作为企业物流活动的重要环节,起着连接企业内部、外部供应链的桥梁和纽带作用。在供应链环境下对企业采购成本管
一个优秀的企业,应该把主要的精力放在企业的关键业务上,充分发挥其优势,同时与全球范围内的合适的企业建立战略合作关系。企业中非核心业务比如物流管理可以由合作企业来完
目前,餐厨垃圾和秸秆都是城市生活垃圾的主要部分,以往对这两种垃圾的处理方法都是一种浪费资源且污染环境的做法。厌氧发酵方式的出现给餐厨垃圾以及秸秆的资源化、无害化利用
数字化教学平台依托现代建构主义教学理论的先进理念,融情境、协作、会话、意义建构等四种教学环境要素于一身,为大学语文教育从根本上改变传统的教育模式提供了工具支撑,但
成熟的债券市场以银行间债券市场为代表的场外债券市场为主导。1997年6月成立的银行间债券市场发展极为迅速,尤其是由于近几年来金融市场的不稳定更是在今年年初出现中国债券
发展农村教育,办好农村学校,关键就在于教师。党的十八大报告关于教育事业的改革和发展的论述也彰显了教师队伍建设的基础地位,充分体现了党中央、国务院对于教师地位和教师
代表俄国文学深度的陀思妥耶夫斯基同中国有着密切的联系,中国对陀思妥耶夫斯基的译介和评论已经经历了九十多个春秋。陀思妥耶夫斯基在中国最先吸引了中国学者的目光,有关陀