知识增强预训练模型的方面级情感分析关键技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:guanyuefei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理技术的发展,无论是学术界还是工业界都非常重视,情感分析是其重要的研究方向。近年来,如博客、论坛、微博、电商网站等平台都提供了用户发表观点和评论的渠道,由于信息过载,人们越来越倾向于参考别人的评价信息选择消费。有效地分析这些观点信息,有利于用户熟悉产品信息、调整经营策略、监控舆情动态等。传统的情感分析大多基于整个句子进行情感预测,然而,生活中人们往往更加关注指定方面的情感评价。因此,方面级情感分析任务应运而生。目前情感分析系统主要依靠大量数据进行驱动,一些研究者不断尝试通过一系列数据增强、数据迁移等方式增加辅助信息,通过实验表明这种方式对模型性能提升有限,并且需要大量数据进行迁移学习。利用其它领域的样本进行迁移学习,很难避免领域间不同语境带来的语义差异。因此,方面级情感分析任务是一个非常重要且非常复杂的问题,需求与发展永无止境,目前仍存在很多亟待解决的问题:第一,方面级情感分析任务的标注数据匮乏,且人工标注成本巨大,训练样本不足会极大地限制模型性能;第二,句子中不同方面的情感倾向不尽相同,如何更好地关注方面词相关的上下文情感信息是研究该任务的重难点之一;第三,目前情感分析平台大多开放的是基于整个句子进行情感预测,缺少具体方面的情感分析,设计并实现一个方面级情感分析系统是非常具有研究价值的。针对以上方面级情感分析任务中存在的不足,本文从数据增强、同义词替换、预训练等角度深入研究,提出两个算法模型并实现一个方面级情感分析系统。主要包括以下几点贡献:(1)提出一种基于预训练和同义词替换的数据增强算法。为了解决方面级情感分析任务的标注数据匮乏问题,本文对数据增强算法进行了深入研究,对比分析了基于预训练模型生成语义信息的有效性,提出一种基于预训练和同义词替换的联合训练模型。通过预训练模型生成同义句,保证语义信息的一致性,再联合同义词替换算法进一步丰富样本数据,保证生成句子的唯一性。最后在Sem Eval 2014数据集上进行模型评估,利用方面级情感分析任务的经典基线模型进行对比实验,验证了本文所提数据增强算法的有效性。(2)提出一种知识增强的预训练模型。为了解决方面对应的特征提取不充分问题,本文前人成果进行深入研究,分析实验角度,发现研究者更多的是关注句子的全局上下文信息,利用领域内或领域外的情感信息增加辅助情感知识,从而忽略了方面词附近的情感信息对指定方面情感表达具有更大积极作用的特征。本文提出一种基于全局文本信息和方面词局部情感信息进行联合知识增强的预训练模型,全面考虑了方面词的语义信息。在Sem Eval 2014和Twitter数据集上对比实验,从多个角度进行分析,验证了模型的有效性。最后还与主流的迁移学习进行对比分析,更进一步说明了模型在数据集较少的领域内效果表现更佳。(3)设计并实现一个方面级情感分析系统。本文设计并实现一个方面级情感分析系统,将本文所提两个算法模型应用于该系统中。用户可以根据需要自训练一个领域内的方面级情感分析模型,快速进行方面级情感倾向预测和数据统计分析。
其他文献
异型花柱植物是一种受遗传因素控制的花型多态性现象,其适应意义在于促进异交,从而提高不同花型间传粉精确性。前人的研究发现异型花柱植物通常依靠长吻传粉昆虫进行型间花粉的传递。植物的花蜜和花气味等特征可适应特定的传粉者。然而异型花柱植物的花蜜和花气味等特征是否与传粉者行为相适应,从而促进型间花粉的传粉,还不清楚。滇丁香(Luculia pinceana)隶属茜草科滇丁香属,狭长的管状花,具有二型花柱典型
学位
碘是人体所必须的一种营养素,有“智力元素”之称,具有保持人体正常新陈代谢和生命活动的作用,其化工产品被广泛用于医药、农业、工业等领域。但自然界中碘资源含碘量低,这为碘离子在短时间被氧化成碘单质带来很大的困难,因此,利用适合的催化剂提高碘离子的氧化速率是必要的。多酸(POMs),因其制备简单、高催化活性、高选择性及对环境无污染而被广泛的应用于催化领域,但其在水溶液中的高溶解性使其在体系只作为均相催化
学位
顾炎武作为明亡清兴的遗民代表人物,实开一代之文风。翻检其诗集中四百多首诗,诸体兼备,题材众多,于诗一道颇有成就。又由于顾炎武一生漂泊在外,终生未返故乡,纪行题材在其诗歌创作中占有较高比重,因此有必要针对此类诗歌进行系统性研究。通过梳理顾炎武的纪行诗,结合相关史料可展现其诗作背后的人生历程、情怀表达及审美创造,进以管窥顾炎武纪行诗在诗史上的位置,以此对其诗进行评价。论文共分为五个部分:绪论部分是对选
学位
林联桂《见星庐赋话》是极具特色之作。全书品评馆阁律赋,涉及馆阁赋批评标准及主体修养等问题,尤以讨论律赋创作技法为主,并列举大量馆阁时赋加以论证。林氏赋史思想、辨体思想在《见星庐赋话》中亦有体现。本文结合清代其他赋论专书与诗法论著,从赋史论、辨体论、赋法论、馆阁赋批评四方面展开研究,阐述其学理价值。在赋史源流上,林联桂突出了赋的《诗》学背景,强调“滥觞于骚”“风、雅、颂为宗”的观点,从赋的起源与流变
学位
当前我国区域经济发展与生态价值不平衡、不协调问题突出。生态系统生产总值(GEP)核算,即核算对生态文明建设成效影响较大的重要指标以分析与评估区域生态文明建设成效。参考国内外生态产品价值核算理论以及最新的核算方法,从生态产品、生态调节和生态文化三个方面选取多个指标构建黔中城市群GEP核算体系。核算指标涉及11项小指标,即产品服务价值4项(农业产品价值、林业产品价值、畜牧业产品价值、水资源产品价值)、
学位
圆果化香(Platycarya longipes)属于胡桃科(Juglandaceae)化香树属(Platycarya),是喀斯特森林生态系统中的优势种,也是建群种,对喀斯特地区生态系统的保护和稳定性起着关键性的作用,并且具有清热解毒、活血化瘀、杀虫止痒等药用价值。近年来,有关圆果化香的研究主要是对其进行模拟干旱的生理生态实验或是野外调查研究,却鲜少见与圆果化香中次级代谢产物有关的研究报道。本论文
学位
Bolic空间由G.Kasparov和G.Skandalis在使用KK-理论研究群的强Novikov猜想时引入,其包括双曲空间,CAT(0)空间等常见空间类型.Bolic空间的定义中包括条件B1和B2两部分,对B1和B2分别进行调整可以得到强bolic空间和弱bolic空间的定义.V.Lafforgue证明了可以恰当作用在强bolic空间上的群的Baum-Connes猜想,I.Mineyev和G.
学位
新一轮普通高中地理课程标准对学习环境提出了新的诉求即学生能够在真实情境中解决真实问题,这与场域学习理念相通。因此地理教师可以将场域学习运用到地理教学中,构建地理场域学习环境。以往对学习环境的研究发现,当学生的实际学习环境与学习环境偏好相似时,学生能达到最好的学习效果,而城乡之间教学环境和教学理念的差异会对学生学习环境偏好产生影响。因此为了构建利于学习效果提高的地理场域学习环境,有必要调查不同地区学
学位
随着国内资本市场的不断发展,我国居民资产增值的需求也越来越高,由于普通投资者对风险认知不足、频繁交易等原因导致投资收益与期望不符。证券投资基金以其专业的管理和资产配置受到无数投资者的青睐,特别是近几年越来越多的年轻人选择基金作为主要的投资工具,使得我国基金市场达到空前的繁荣景象,公募基金的数量也不断增加。然而并不是所有的基金都能为其投资者带来超额收益,部分基金甚至为投资者带来巨大损失,如何选择合适
学位
在化学工程,电力工程以及机械工程等领域的研究过程中存在大量约束非线性方程组问题.另外,在实际问题计算中,对问题求解的实时性和精度的要求越来越高,操作环境往往也会受到时间的影响而产生变化,因此仅仅考虑静态问题的求解已经无法很好地应用于现实生活中.基于此,本文将时变约束非线性方程组作为研究对象,探究其解法.人工神经网络(ANNs),也称为神经网络(NNs),具有高度的并行结构和并行实现能力,且具有很强
学位