面向问答文本的情感分析关键技术研究

来源 :苏州大学 | 被引量 : 2次 | 上传用户:jeff006902000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着移动互联网以及电子商务的迅猛发展,针对用户评论文本的情感分析技术渐渐成为自然语言处理领域中的一个热点研究问题。已有的关于情感分析的研究主要基于非交互式评论文本进行情感自动分析。与已有研究不同的是,本文基于一种新型的交互式问答评论文本开展情感分析研究。相比较于传统的非交互式评论文本相比,该交互式的问答评论文本包含的虚假评论文本数量大大降低,因为答案的提供者都是从已经购买产品的用户中随机抽选。因此,开展面向问答文本的情感分析研究不仅丰富了情感分析领域的研究内容从而具有重要的学术价值,而且能为企业提供更可靠的用户反馈进而具有非常重要的应用价值。本文主要根据任务粒度的不同将面向问答文本的情感分析划分为三个任务(一个粗粒度任务,两个细粒度任务),并围绕这三个任务分别开展工作:1)粗粒度任务:面向问答文本的整体性情感分类(Sentiment Classification),该任务负责识别出问答文本包含的整体情感;2)细粒度任务:面向问答文本的属性抽取(Aspect Extraction),该任务负责识别出问答文本中包含的属性类别(Aspect Category)以及属性描述语(Aspect Term);3)细粒度任务:面向问答文本的属性级情感分类(Apect Based Sentiment Classification),该任务负责识别出问答文本中包含的针对具体属性(属性类别或者属性描述语)的情感。具体而言,本文研究的主要内容分为以下三个部分:1)基于层次门控注意力机制的问答整体性情感分类方法研究。本文首先构建了大规模且高质量的面向问答文本的整体性情感语料库。基于该标注的语料库,本文开展了面向问答文本的整体情感分类方法的研究。具体而言,本文提出了一种基于层次门控注意力机制的方法用于解决问答整体性情感分类任务中存在的问题文本与答案文本之间的语义匹配问题。该方法包含三个步骤:首先,将问答型评论中的问题文本和答案文本同时进行句子切分,以构建<问题句子,答案句子>句子对序列。其次,利用门控双向注意力网络用于挖掘每个<问题句子,答案句子>句子对中问题句子与答案句子之间的匹配信息。最后,利用门控自注意力网络捕捉所有<问题句子,答案句子>句子对的不同重要性程度。实验结果表明,本文提出的层次门控注意力机制方法较其他基准系统能显著提升问答整体性情感分类的性能。2)基于多任务联合学习的问答属性抽取方法研究。本文提出的面向问答文本的属性抽取任务包含两个相关的子任务,即问答属性描述语抽取与问答属性类别分类。为了充分利用这两个任务之间的相关性信息,本文提出了一种基于多任务学习的问答属性类别分类与属性描述语抽取联合学习方法。具体而言,该方法包含三个步骤:首先,针对问答属性类别分类任务,提出了基于匹配注意力机制的问答属性类别分类方法,该方法能充分利用问题与答案间的匹配信息抽取出问题与答案间相匹配的属性类别;其次,针对问答属性描述语抽取任务,提出了基于门控注意力机制的问答属性描述语抽取方法,该方法能有效利用门控注意力机制只抽取出问题中与答案相匹配的描述语;最终,提出了一种多任务联合学习的方法用于捕捉问答属性类别分类和属性描述语抽取两个任务之间的关系信息。实验结果表明,本文提出的多任务联合学习方法较其他基准系统能显著提升问答属性类别分类与属性描述语抽取任务各自的性能。3)基于层次强化注意力机制的问答属性级情感分类方法研究。针对问答属性情感分类任务中的噪声问题以及问题与答案间的语义匹配问题,本文提出了一种基于层次强化注意力机制的问题属性情感分类方法。具体而言,该方法包含四个步骤:首先将问答型评论中的问题文本和答案文本同时进行句子切分,以构建<问题句子,答案句子>句子对序列;其次,提出了一种基于策略梯度算法的序列选择器模型,用于降低识别特定属性的情感时其他属性所带来的噪声影响。接着,将该序列选择器与双向注意力机制相结合,构建了一个强化双向注意力网络用于捕捉问题句子与答案句子间的匹配信息,并同时过滤噪声词信息。最终,将该序列选择器与自注意力机制结合,构建了一个强化自注意力网络用于捕捉构建的所有的<问题句子,答案句子>句子对的重要性程度,并同时过滤噪声句子对信息。实验结果表明本文提出的层次强化注意力机制方法较其他基准系统能显著提升问答属性情感分类的性能。
其他文献
水稻是我国的主要粮食作物,种植面积约占全国总种植面积三分之一。因水稻易遭受病虫为害,人们为了保证水稻的产量而喷洒了大量的农药,使得水稻是消耗农药量最大的粮食作物。由于农民盲目使用农药,存在着用药量越大、浓度越高效果越好的误区,导致水稻生产中使用农药的不安全性。这不仅破坏环境,影响水稻质量安全和出口,甚至对人们的食用安全构成威胁。本文经过田间试验确定有效用量后,用高效液相色谱-串联质谱法建立氰氟虫腙
随着经济的迅速发展,社会竞争日益激烈,人们的生活节奏不断加快,使处于失眠、疲劳、膳食不规律等亚健康状态的人群不断增多,因免疫力低下而引起疾病的人数也逐渐增加。同时由
本文以央行计算机辅助审计开展情况为基础,通过实例分析,深入介绍央行计算机辅助审计手段,并提出推进央行开展计算机辅助审计的建议。
休克是一个复杂的病理过程,根据其严重程度分为可逆性休克和不可逆性休克(重症难治性休克)。重症休克的发生是众多创伤及感染性疾病发展的共同归宿,是导致病人死亡率居高不下的直
随着网络的迅猛发展,网络文学以其独有的特质使文学的土壤更加丰沃。随着网络文学热潮逐渐消退后,网络文学中的缺陷也不由地暴露出来,比如作者的素质文化水平、作品本身的缺
在目前的资本市场中,并购重组已成为企业扩大规模、促进资源整合的重要途径,交易对价作为企业并购重组中的重要一环,交易对价的定夺是否合理会对企业并购重组的结果造成一定影响,为了应对高溢价风险,业绩承诺协议作为一种交易定价的事后调节机制越来越多的被运用到企业并购重组中去。业绩承诺于2003年最先进入我国资本市场,由于企业并购的发展,其适用范围也逐渐扩大,业绩承诺协议在降低信息不对称风险,减少并购交易高溢
【正】 普列汉诺夫在他的《论艺术——没有地址的信》一书中,认为列夫&#183;托尔斯泰提出的艺术只表现人们的感情的说法“是不对的”。因为在他看来,“艺术既表现人们的感情,
在当代农业生产发展过程中,为了有效地降低生产成本,大量新科学、新技术在生产实践中应运而生。近几年,随着劳务人员工资的不断上涨,育苗成本在不断加大。其中,苗圃除草是劳
<正>亲爱的孩子们,书籍,是文化传承的一个重要载体。阅读,有时候就是让我们亲近过去的事情。那些曾经和过往,会在一段一段的故事里,成为人类共同的、融入血脉的文化气息。今