基于Bert编码和迁移学习的细粒度情感抽取研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:e7889620621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度情感抽取是指从带有主观情感色彩的文本中,提取出描述目标、观点词以及情感极性三要素的技术,目前在风险管理、个性化推荐等场景下具有广泛应用。在非限定目标域的条件下,本文基于预训练语言模型BERT编码的字向量,引入迁移特征,提出了两阶段情感抽取模型,克服了基线模型中存在的实体边界误判等问题。首先,文本设计了基于序列标注的基线模型。该模型采取流水线思想,分为目标、观点实体抽取以及情感多分类两个独立模型。在训练中采取BIO、start-end标注策略,完成序列到序列的目标、观点实体抽取任务。与此同时,构造目标集、观点集的笛卡尔积组合,以目标-观点组合、原文本为输入,建立情感多分类模型。预测阶段,使用第一个模型的实体识别结果,目标-观点与原文本组合后由分类模型判断是否为有效组合以及情感极性。最终,输出所有有效的情感三元组。经实验验证,基线模型存在三个显著问题:一、忽略了目标实体、观点实体之间的潜在因果关系;二、误差积累产生显著不良影响;三、实体识别模型在小样本下表现不佳。针对问题一、二,本文引入先验目标信息,设计了一个端到端的两阶段抽取方案。在第一阶段,基于BERT编码字向量,采取start-end标注策略抽取文本中所有可能的目标实体。将上一阶段中抽取的目标实体首尾字向量作为先验信息,加入到观点-情感联合抽取阶段,即将目标-观点之间的潜在关系纳入模型。另外,即便并未抽取到目标实体,也不影响观点-情感预测,并且两个阶段一起训练,克服了误差积累问题。针对问题三,本文引入外部迁移特征,补充额外信息辅助观点-情感抽取。首先,本文收集了约20万条评论文本,在基于双向长短期记忆网络(Bi-LSTM)的情感分类模型中,加入注意力机制。这样一方面提升了分类精度,另一方面可以从中提取注意力权重作为潜在观点信息。在注意力权重的处理上,本文利用观点词中的词性频率作为系数,对潜在观点信息进行显示表达后迁移至观点-情感抽取阶段。最后,经实验验证,加入迁移特征后的两阶段抽取模型,相较普通的两阶段模型,召回率、精确率、F1分别有6.0%、10.6%、8.7%的提升。在结果分析阶段,本文分别比较了迁移特征引入前后的两个模型,在目标词、观点词上的提取效果。可以发现,在引入迁移特征后,无论是目标还是观点,各项评价指标均有不同程度的提高,但观点词抽取的提升效果更加明显。以精确率为例,目标词抽取提升7.3%,而观点词提升8.0%。综上所述,本文设计的两阶段情感抽取方案以及引入迁移特征后的改进方案,实现了端到端的细粒度情感三元素的抽取,在样本量较小时也有不错的应用效果。在实际应用中,具备快速归纳文本中情感表达的能力。
其他文献
本文利用2015年1月1日之后银行间和交易所市场交易过并且评级在A以上的固定利率债券的周度收盘价格,对于国企债和民企债数据,分别基于三次样条折线函数,利用最小二乘估计的方法估计得到各个时间点的折现因子,随后获取了各个时间截面上的两年期、三年期、四年期和五年期的折现因子,并利用折现因子计算得到了即期利率曲线。从得到的即期利率曲线上可以看到,在国企债和民企债上都呈现先下降再上升最后回落的时间趋势,时间
学位
改革开放以来,随着我国经济水平的发展,城市化进程的推进,城市生活垃圾产生数量的越来越多,由此引发了大量与生活垃圾相关的问题,给我们的生活环境、生态水平带来更大的挑战,“垃圾围城”成为城市发展之痛。垃圾分类政策的推行有助于提升垃圾的处理速度、保障经济的高速发展、保障生态环境的改善。我国将城市生活垃圾分为可回收物、厨余垃圾、有害垃圾、其他垃圾四类,研究垃圾图片分类算法有助于居民简易、正确的进行垃圾分类
学位
目的:探讨温经养血汤与艾灸疗法应用于子宫内膜异位症痛经患者的效果,以便临床寻找出更有效的治疗方案。方法:选取2019年12月-2021年9月荆门市中医医院收治的子宫内膜异位症痛经患者120例,依据随机数字表法将其分为对照组和试验组,各60例。对照组给予艾灸疗法,试验组在对照组的基础上给予温经养血汤治疗,两组均连续治疗3个月。比较两组临床疗效,治疗前后中医症候积分、血液流变学、血清前列腺素F2α(P
期刊
我国的投资市场长期处于个体投资者占据绝大多数的环境中,投资者的情绪对于我国市场经济有着决定性的重要作用。从市场经济运行的角度来看,多数学者都认为,投资者的情绪和收益波动率之间是呈正向相关的,即投资者的情绪愈是高涨,其收益波动率也愈大。本文通过利用文本数据刻画了投资者的情绪,基于异质市场假设提出HARQ-RV-CJ-SENT模型,改善了对已实现价格波动率的预测效果,并从因果检验的角度深入分析了二者之
学位
在当今的大数据时代,指数级增长的文本数据给人工智能带来了更多的可能性,自然语言处理领域逐渐受到更多的关注。随着深度学习的发展,海量数据的自动化处理要求不断提高,如何高效利用非结构化文本信息成为一个紧迫且重要的热点任务。知识图谱、事理图谱等概念也渐渐兴起,事件抽取作为构建知识图谱的重要信息抽取技术,对于其他下游任务具有重要的意义,目前深度学习凭借着强大的自动特征抽取能力,逐渐成为事件抽取的主流研究趋
学位
中国已经顺利走完全面建设小康的道路,并在此基础上将继续向全面建设现代化国家迈进,由此再次将公共卫生安全和人民健康的历史任务凸显出来。新中国成立以来,尤其是十八大以后,中国在公共卫生领域取得了重大成就,困扰贫弱中国多年的各种传染病逐个消灭,人均寿命稳步提升,社保制度日益健全,医疗保健水平显著提升,制度的优越性愈加凸显。但社会主要矛盾的转变在公共卫生领域向理论和实践提出了更高的要求,随着经济社会的发展
学位
当今社会,网络服务已浸透人们生活的方方面面,而维护背后软硬件网络系统安全可靠的运行,以及应对各类突发事件则离不开运维人员的工作。但随着科技的进步,应用系统的规模及复杂程度的提高,传统运维方式逐渐被淘汰。智能运维在应对海量数据时,能更好地运用算法从海量数据中总结规律、提取规则,辅助运维人员做出更优的反应和决策。其中,对运维数据的异常检测技术在推动智能运维的发展具有不可或缺的作用。运维指标时序数据具有
学位
“斗争”和“伟大斗争”,成为党的十八大以来中国共产党治国理政过程中的高频词汇。习近平总书记在2021年春季学期中央党校(国家行政学院)中青年干部培训班开班式上指出:“我们党依靠斗争走到今天,也必然要依靠斗争赢得未来。”1因而,“伟大斗争”既不是一句纯粹的政治口号,也不是国家领袖的凭空创想,它是中国共产党人在漫长的接续奋斗的历史过程中理论创新与实践创新的统一,具有深邃的历史理论根基和现实依据。“伟大
学位
目的探讨加味桂枝茯苓汤联合孕三烯酮治疗子宫内膜异位症痛经的疗效,以及对患者糖类抗原125(CA125)、糖类抗原199 (CA199)水平的影响。方法选取泉州市中医院2017年1月至2019年1月收治的90例子宫内膜异位症痛经患者,随机分为对照组和观察组,各45例。对照组口服孕三烯酮胶囊治疗,观察组在对照组基础上口服加味桂枝茯苓汤治疗,两组均治疗12周。治疗前后,观察并比较两组视觉模拟评分法(VA
期刊
深度卷积神经网络的兴起极大地推动了语义分割领域的研究进展,已经有一些成熟的方法应用于医学图像分析、自动驾驶等领域。不过随着研究愈加成熟,深度学习技术也暴露出了弱点。高的分割精度十分依赖于大规模的标注数据,而在许多现实应用场景中,大规模的数据是难以获取的,并且,对数据进行像素级的标注也是高成本的,所以如何基于少量标注数据通过有监督学习来较好地实现语义分割便成了一个亟待解决的问题;同时,现有的基于深度
学位