基于BERT的方面级短文本情感分类方法研究

来源 :四川师范大学 | 被引量 : 0次 | 上传用户:xianghh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的发展,促进了网络评价的衍生。通过对网络评价不同方面的剖析,可以使商家获得相关销售产品的使用反馈等信息,促进商品的改进与升级。同时,用户在购买商品时,参考网络评价,也能针对性地挑选自己需要的商品。这就推动了众多研究者对于方面级短文本情感分类的研究,方面级情感分类成为了自然语言处理研究领域中一个热点问题。而评价文本存在口语化,错别字多等问题,给文本分类的语义分析带来了挑战。随着深度学习的发展,基于传统深度网络的方法,如RNN和LSTM等,广泛应用于方面级情感分类。但这些方法存在的不足主要有:(1)训练过程中可能出现梯度丢失和爆炸的现象;(2)无法对长句子进行语义训练;(3)无法高效、准确地提取文本中多义词的语义特征,致现有深度学习分类模型分类效果不好,泛化性差。因此,如何有效解决上述问题,提升方面级情感分类的准确性和泛化性,正受到学术界的广泛关注。本文首先分析了国内外方面级情感分类方法的现状和存在的问题,然后,提出了两种方案用于提升分类的准确率和泛化性。归纳起来,本文的主要贡献如下:1)针对现有的方面级情感分类模型存在准确率较低、特征提取能力较差等问题,提出一种基于BERT的交互注意力网络的方面级情感分类方法(A BERT-based Interactive Attention Network for aspect sentiment analysis,BIAN)。首先,利用BERT模型作为编码器来提取不同类型的上下文特征。然后,建立交互注意网络,学习上下文和方面词之间的交互注意。最后构造注意表征并输出分类结果。在多个数据集上的实验表明,BIAN可以提升方面级情感分类模型的性能。2)针对现有的方面级情感分类模型存在感知方面词能力较弱、泛化能力较差等问题,提出一种面向上下文注意力联合学习网络的方面级情感分类方法(Context-Oriented Attention Joint Learning Network for Aspect-Level Sentiment Classification,CAJLN)。首先,利用双向Transformer的表征编码器(BERT)模型作为编码器,将文本句子预处理成句子、句子对和方面词级输入序列,分别经过BERT单句和句子对分类模型,进行上下文、方面词级和句子对隐藏特征提取.再基于上下文和方面词级隐藏特征,建立上下文和方面词的多种注意力机制,获取方面特定的上下文感知表示。然后,对句子对隐藏特征和方面特定的上下文感知表示进行联合学习。采用Xavier正态分布对权重进行初始化,确保反向传播时参数持续更新,使CAJLN在训练过程中可以学习有用信息。在多个数据集上的仿真实验表明,CAJLN可有效提升短文本情感分类性能。3)实现了一个原型系统,以CAJLN模型为原型,用于对用户输入的情感语句进行情感预测。选用多类样本进行系统效果验证,实验表明,原型系统能根据用户输入的不同类别的情感语句进行情感预测,但针对口语化丰富的语句,可能会存在偏差。
其他文献
前视合成孔径雷达(SAR)能够对平台正前方区域成像,具有抗干扰性好、隐蔽性强等特点,在精确制导、侦察测绘等领域具有重要价值。由于前视SAR成像处理对实时性要求高,而回波大数据量将导致成像实现非常困难;因此,研究前视SAR成像处理方法及硬件实现具有重要意义。前视SAR中的机载双基前视模式是各国研究的热点,本文以机载双基前视SAR为研究对象,进行了极坐标格式算法(PFA)、前视SAR信号处理机设计及P
物联网将海量微型设备通过有线或无线方式基于互联网构建成一种大型泛在网络,这种网络能够实现异构信息间的互联、互通与互操作,实现所有物体的智能化连接。首先,大量异构底层智能设备接入使得用户接入和控制设备变得越来越复杂。没有统一的设备管理系统,用户在访问和控制设备时需要操作不同的物联网应用,访问不同的物联网云平台。这种碎片化的设备管理模式增加了异构设备的用户接入和控制复杂性,降低了应用可扩展性。其次,为
大运河文化,即因大运河而生、而变、而传播的文化,具有"开放""包容""交流""融合"等多方面的价值内涵。今天,虽然大运河在交通、商贸等方面的功能已大大降低,但在促进经济文化发展、建构国家形象等方面,仍具有重要价值与功能,因此保护并传承好大运河文化有其现实必要性。只是,如今的大运河文化研究及其保护、传承实践,更多是从宏观、上层等角度展开进行的,而缺乏对民间、民众与生活层面的关注。为此,我们应该在已有
情感识别是计算机利用传感器采集到人的语音、表情和行为等数据来进行分析,从而来推断出人的情感状态,人类对于他人情感的识别主要是通过视觉模态或者语音模态来完成的。情感识别对于人机交互、医疗、刑侦、航天等领域有着重要的支撑作用。单模态语音情感识别是通过传感器采集到的语音信号来分析情感状态;多模态语音视觉情感识别是通过传感器采集到的语音、表情和行为等信号中的两种及两种以上的信号来进行分析情感状态。对于单模
信息技术的飞速发展对于电源系统提出了愈来愈高的要求,微型直接甲醇燃料电池(Micro direct methanol fuel cell,μDMFC)因其高能量密度、高转换效率、无污染等特点,被认为是便携式电子设备电源的理想解决方案之一。然而μDMFC面临的传质管理、催化剂中毒等问题使其无法直接在高浓度燃料下运行。此前,研究人员所提出的解决思路绝大多数从宏观尺度出发,大多会在电池内引入新的结构或器
本文提出了一种建议评论分类方法和一种建议关键短语提取方法,以实现评论文本的建议挖掘,帮助用户更便捷地作出决策,也帮助商家更精准地改进相关服务.对于评论的分类,本文提出一种基于PU(positive and unlabeled)学习的方法.与常规PU学习不同,正例样本通过简单规则获得;在PU学习一阶段中,以投票的方式综合三种方法去划分可靠负例;PU学习二阶段中,将代价敏感融入支持向量机中进行训练.在
离群点检测是数据挖掘中重要的研究方向之一,因其应用前景的广阔受到了学者们的关注。基于经典粗糙集理论的离群点检测方法一般只适用于符号型属性数据,不能直接应用于数值型属性数据。由于数值型数据的处理要预先对其进行离散化,数据本身所蕴含的信息在离散化过程中容易发生改变,甚至会因此而丢掉重要的信息。为了提高处理数值型和混合型属性数据集的效率,粗糙集理论中的等价关系发展出了邻域关系。实际上,用邻域粗糙集理论来
教育部办公厅关于印发的《2017年教育信息化工作要点》的通知中指出深入推进信息技术与教育教学深度融合。(1)在信息化、数字化教学背景下,创新的教学模式不断涌现,智慧云课堂就是其中之一。四川省某中学校也积极开展智慧课云堂在高中物理教学中的应用研究。本文采用的是教育叙事研究的方法,叙写我在自己所任教的学校四川省某中学参与智慧云课堂教学实践研究的经历过程。在研究过程中,我利用文献分析法对国内外相关文献进
文本匹配作为文字处理领域的一项热门技术,在查重检测、智能问答等领域有广泛的应用实践。目前,诸多学术不端行为,如论文剽窃、数据造假和内容恶意篡改,在高校和其它学术界越来越严重,许多学生通过同义词替换法、打乱语序排列法、语义重述法等主要方式来降低论文查重率。为解决上述问题,经过对已有文本比对算法的大量调研和分析,结合先进搜索引擎已具备文本精确匹配等强大功能的支撑,本文选取开源企业级搜索和数据分析引擎E
本文主要基于K-means算法和TextRank算法研究自动文摘技术来提取单文档中文新闻文本核心句.针对TextRank算法没有考虑到一篇新闻文本可能存在多个主题的情况,本文通过引入K-means算法,提出了D-kmeans算法,将相似的句子归为同一类.针对TextRank算法考虑因素不全面,本文结合D-kmeans算法,并对其进行修改,得到一种用于文摘提取的算法,称为WK-TextRank算法.