论文部分内容阅读
近些年来,随着移动互联网以及电子商务的迅猛发展,针对用户评论文本的情感分析技术渐渐成为自然语言处理领域中的一个热点研究问题。已有的关于情感分析的研究主要基于非交互式评论文本进行情感自动分析。与已有研究不同的是,本文基于一种新型的交互式问答评论文本开展情感分析研究。相比较于传统的非交互式评论文本相比,该交互式的问答评论文本包含的虚假评论文本数量大大降低,因为答案的提供者都是从已经购买产品的用户中随机抽选。因此,开展面向问答文本的情感分析研究不仅丰富了情感分析领域的研究内容从而具有重要的学术价值,而且能为企业提供更可靠的用户反馈进而具有非常重要的应用价值。本文主要根据任务粒度的不同将面向问答文本的情感分析划分为三个任务(一个粗粒度任务,两个细粒度任务),并围绕这三个任务分别开展工作:1)粗粒度任务:面向问答文本的整体性情感分类(Sentiment Classification),该任务负责识别出问答文本包含的整体情感;2)细粒度任务:面向问答文本的属性抽取(Aspect Extraction),该任务负责识别出问答文本中包含的属性类别(Aspect Category)以及属性描述语(Aspect Term);3)细粒度任务:面向问答文本的属性级情感分类(Apect Based Sentiment Classification),该任务负责识别出问答文本中包含的针对具体属性(属性类别或者属性描述语)的情感。具体而言,本文研究的主要内容分为以下三个部分:1)基于层次门控注意力机制的问答整体性情感分类方法研究。本文首先构建了大规模且高质量的面向问答文本的整体性情感语料库。基于该标注的语料库,本文开展了面向问答文本的整体情感分类方法的研究。具体而言,本文提出了一种基于层次门控注意力机制的方法用于解决问答整体性情感分类任务中存在的问题文本与答案文本之间的语义匹配问题。该方法包含三个步骤:首先,将问答型评论中的问题文本和答案文本同时进行句子切分,以构建<问题句子,答案句子>句子对序列。其次,利用门控双向注意力网络用于挖掘每个<问题句子,答案句子>句子对中问题句子与答案句子之间的匹配信息。最后,利用门控自注意力网络捕捉所有<问题句子,答案句子>句子对的不同重要性程度。实验结果表明,本文提出的层次门控注意力机制方法较其他基准系统能显著提升问答整体性情感分类的性能。2)基于多任务联合学习的问答属性抽取方法研究。本文提出的面向问答文本的属性抽取任务包含两个相关的子任务,即问答属性描述语抽取与问答属性类别分类。为了充分利用这两个任务之间的相关性信息,本文提出了一种基于多任务学习的问答属性类别分类与属性描述语抽取联合学习方法。具体而言,该方法包含三个步骤:首先,针对问答属性类别分类任务,提出了基于匹配注意力机制的问答属性类别分类方法,该方法能充分利用问题与答案间的匹配信息抽取出问题与答案间相匹配的属性类别;其次,针对问答属性描述语抽取任务,提出了基于门控注意力机制的问答属性描述语抽取方法,该方法能有效利用门控注意力机制只抽取出问题中与答案相匹配的描述语;最终,提出了一种多任务联合学习的方法用于捕捉问答属性类别分类和属性描述语抽取两个任务之间的关系信息。实验结果表明,本文提出的多任务联合学习方法较其他基准系统能显著提升问答属性类别分类与属性描述语抽取任务各自的性能。3)基于层次强化注意力机制的问答属性级情感分类方法研究。针对问答属性情感分类任务中的噪声问题以及问题与答案间的语义匹配问题,本文提出了一种基于层次强化注意力机制的问题属性情感分类方法。具体而言,该方法包含四个步骤:首先将问答型评论中的问题文本和答案文本同时进行句子切分,以构建<问题句子,答案句子>句子对序列;其次,提出了一种基于策略梯度算法的序列选择器模型,用于降低识别特定属性的情感时其他属性所带来的噪声影响。接着,将该序列选择器与双向注意力机制相结合,构建了一个强化双向注意力网络用于捕捉问题句子与答案句子间的匹配信息,并同时过滤噪声词信息。最终,将该序列选择器与自注意力机制结合,构建了一个强化自注意力网络用于捕捉构建的所有的<问题句子,答案句子>句子对的重要性程度,并同时过滤噪声句子对信息。实验结果表明本文提出的层次强化注意力机制方法较其他基准系统能显著提升问答属性情感分类的性能。