【摘 要】
:
随着互联网技术在生产生活中的不断应用和普及,网络中产生了大量形式各异且具有极高价值的数据信息,如电商评论、监控记录、聊天记录等。其中,文本类型的数据占有相当大的比重,而这些数据往往都蕴含着丰富的情感信息,如何有效、快速、准确地从这些数据中挖掘出隐含的情感信息,为政府管理、企业决策、用户消费等提供服务,正是文本情感分析任务所追寻的目标。文本情感分析是指利用各类自然语言处理和深度学习等技术提取文本中的
论文部分内容阅读
随着互联网技术在生产生活中的不断应用和普及,网络中产生了大量形式各异且具有极高价值的数据信息,如电商评论、监控记录、聊天记录等。其中,文本类型的数据占有相当大的比重,而这些数据往往都蕴含着丰富的情感信息,如何有效、快速、准确地从这些数据中挖掘出隐含的情感信息,为政府管理、企业决策、用户消费等提供服务,正是文本情感分析任务所追寻的目标。文本情感分析是指利用各类自然语言处理和深度学习等技术提取文本中的情感信息并进行分析推理的过程,而考虑到文本情感的复杂性、对象的多样性等特征,方面级情感分析这一更细粒度的文本情感分析任务更符合实际应用的需求。目前,对于具有复杂情感信息的文本数据,传统的方面级情感分析方法难以取得令人满意的效果,且并不具有良好的应用价值。因此,如何有效且实用地对文本进行方面级情感分析处理是一项非常具有挑战的任务。本文主要聚焦于文本数据的方面级情感分析问题,围绕着任务相关的方面目标、方面类别和情感极性三大元素之间的依赖关系等方面展开深入的研究,以提高情感分析的性能和实用性为目标,通过不断优化、分层递进的方式提出具有不同应用场景的算法,并通过大量的实验验证了各个算法的有效性。本文的主要研究内容和取得的成果如下:(1)针对忽略已知方面目标是文本的一个组成部分这一前提而导致情感分析性能受限的问题,探索了方面目标与文本各单词之间的依赖关系。基于“分布式假说”思想(单词所表达的含义受周边单词的影响更大),提出了一种融合了方面目标位置信息的方面级情感分析模型RPAEN,通过以方面目标位置为中心构建的相对位置编码来提高文本特征表示的质量水平。此外,为缓解可能因位置编码导致的部分情感信息缺失的问题,模型也通过注意力机制和方面目标的位置信息获取文本中各单词与方面目标之间的关联度,从而调整文本中单词的权重分布,改善模型提取任务所需情感信息的能力。实验结果表明,RPAEN模型能够有效提升方面级情感分析的性能,相对位置编码和方面级的注意力机制对任务是有促进作用的。(2)针对多目标文本中方面目标之间情感信息互相干扰的问题。研究如何从文本复杂的信息中高质量的捕获仅与待预测方面目标相关的情感信息,设计一个可以分辨情感信息归属的方法,进而提出了一个通过过滤文本中其余方面目标情感信息的方面级情感分析模型RAO-CNN,实现对文本中所蕴含情感信息的筛选。在此基础上,利用残差机制对模型中的注意力机制进行优化,减少原始信息的损失。实验结果表明,RAO-CNN模型的性能在方面级情感分析任务上获得了一定的提升,尤其是在处理多方面目标文本上,优势较为明显,设计的机制也都是可行的。(3)针对如何端对端的检测出文本中所有的方面目标及其相应的情感极性,分析了方面级情感数据的特点以及依赖关系,对数据进行了一定的重构(即将各个方面类别分别和文本进行组合作为输入信息),从而设计了一个多元素联合检测模型MEJD,实现端对端的检测出文本中所有的(方面目标,方面类别,情感极性)三元组。MEJD模型通过双向长短期记忆网络和图注意力网络分别获取文本中与方面类别相关的情感信息和方面目标信息,并利用情感检测模块和方面目标检测模块分别检测出相应的情感极性以及所有的方面目标信息,完成最终的方面级情感分析任务。实验结果表明,MEJD模型极大的提高算法在应用过程中的实用性,性能方面也取得了令人满意的效果。(4)针对如何优化虚拟边结构和有效利用边标签所包含的依赖关系信息,探讨了图网络中边的构成以及两端节点和边之间的依赖关系。为了避免由于忽略边的属性信息而导致节点表示性能下降的问题,在MEJD模型的基础上,提出了一种基于双元边嵌入图卷积的联合检测模型JDDE-GCN,从而通过优化图网络表示的方法提升多元素联合检测的性能。同时,考虑到文本中并不是所有的单词都与方面类别有关,因此利用注意力机制和门控机制对文本和方面类别之间虚拟边的构建进行控制,减少冗余边的构建且避免噪声信息的干扰。实验结果表明,JDDE-GCN模型在端对端的方面级情感分析任务上性能获得进一步的提升,提出的两个改进机制都在性能的提升上发挥了一定的作用。综上所述,本文通过对以上四个方面的研究来不断迭代更新方面级情感分析模型,使其性能达到了可用水平。同时,相较于利用预先提供的方面目标来进行方面级情感分析,联合提取三元组的方式大大提高了模型的实用性,减少了大量的人力物力成本,使方面级情感分析服务向落地化应用迈进了一大步。
其他文献
心血管疾病(Cardiovascular diseases,CVD)是心脏和血管相关疾病,主要包括冠状动脉疾病,脑血管疾病,和外周动脉疾病。CVD是世界范围内引起死亡的第一诱因,CVD还具有发生率高,难以治愈等特点,给病人带来身体和心理的长期痛苦,也给病人家庭和社会带来了沉重的负担,俨然成为了全球性的公共卫生问题。而动脉粥样硬化(Atherosclerosis,AS)又是形成这一诱因的主要因素之一
随着纳米材料在生物医药、电子器件、环境保护、食品、化妆品等生产生活各个领域中的应用日趋广泛,由之带来的安全性问题和生物学效应逐渐引起关注。二氧化钛纳米颗粒(Titanium dioxide nanoparticles,TiO2 NPs)因其具有物理化学稳定性、生物和化学惰性、环境友好以及低毒等独特的理化性质,已广泛应用于纳米技术和纳米医学领域。TiO2 NPs可能通过职业暴露及使用含TiO2 NP
肝癌是一种发生率和死亡率都极高的恶性肿瘤,严重危害人类生命健康。研究显示,肿瘤微环境的多类细胞包括宿主细胞、巨噬细胞、内皮细胞等均参与了肿瘤的发生发展。近年来的研究发现,肿瘤组织中存在的具有干细胞性质的癌细胞在肿瘤发生发展中有着不可忽略的作用,并被认为是引起临床治疗失败、肿瘤复发、扩散以及预后不良等最为主要的原因之一。研究表明,肝癌组织中也发现了一类具有正常干细胞相似功能的细胞群-肝癌干细胞(Li
背景:肝内胆管癌(Intrahepatic Cholangiocarcinoma,iCCA)是第二大常见类型的原发性肝脏恶性肿瘤。在过去十年间,肝内胆管癌的发病率和死亡率呈逐年上升的趋势。对于少数早期iCCA患者可采取肝切除的方法进行治疗,而对于绝大多数不符合手术切除条件的晚期、复发型iCCA患者,可选择的有效治疗策略极其匮乏。因此,胆管癌靶向药物的研发迫在眉睫,亟待科研人员深入地探究调控iCCA
为解决现有的作战网络模型难以体现作战双方交互动态、节点删除策略脱离作战实际、体系能力量化过度依赖杀伤链数量等问题,提出了一种基于交互对抗网络模型的体系作战能力计算分析方法。建立红蓝双方交互网络模型,将双方作战节点都纳入网络模型,通过可达性节点删除策略实现双方节点更新;引入杀伤链能力及体系杀伤链能力等概念,并以毁伤规模量化体系作战能力;考虑到不等概率网络2端连通度计算时的复杂度,采用蒙特卡洛仿真法求
随着互联网产业和现实业务的不断发展与融合,催生出各种跨平台、跨行业的创新服务模式以满足用户日益增长的个性化需求。其结果使得网络数据规模不断增加,数据形式逐渐多样化。推荐系统作为解决信息过载的传统手段,也面临着信息产业变革带来的巨大挑战。当前,推荐系统逐渐呈现出许多新的特性。移动网络的大力发展促使了推荐系统应该具备普适性和个性化特征;由于多元因素对推荐系统产生影响,使得推荐结构逐渐复杂化。如何在多源
云南是我国共祖神话最多、流传最广泛的地区,最能体现中华民族各民族共祖神话生成想象的典型性和代表性。各民族共祖神话中蕴含着最初的共同体历史记忆,揭示了在共同的生存应对中形成的相互依存、并存共生的历史图景。共祖神话的产生及传扬,促进了族际跨文化认同和共生意识的形成与强化。深入解读和探索共祖神话的历史成因,可以发现其蕴藏着各族际之间如何跨越族群边界认同而成为一个区域共同体的地方性路径。云南各民族共祖神话
恶性肿瘤是威胁着全人类生命健康的最主要疾病之一。迄今为止,对恶性肿瘤治疗仍面临十分巨大的挑战。肿瘤免疫抑制微环境是造成免疫治疗失败的主要原因。因此,解除免疫抑制是提高免疫治疗的主要方法。铁死亡作为一种新开发的肿瘤细胞死亡模式,激活铁死亡对肿瘤免疫疗法具有促进效果,因此如何高效地诱导肿瘤细胞发生铁死亡有望克服传统治疗手段的局限性。得益于实体瘤的增强渗透滞留效应(EPR),纳米材料被开发成具有长血液循
钛及钛合金植入体由于优越的机械性能和良好的生物相容性是骨和口腔种植学中最常用的材料。然而钛植入体表面的生物惰性导致植入体与组织的骨整合差,易引发植入体松动和移位,缩短了植入体的使用寿命。尤其在骨质疏松症病理条件下,该缺陷表现得尤为明显。因此,优化钛基植入体表界面性能,并探究植入体表界面调控细胞代谢和分化的相关分子机制对开发新型钛植入体有重要的临床意义。鉴于此,本论文融合了微弧氧化技术及简易的水热法
我国少数民族传统体育是在国家深厚的民族文化总体氛围中孕育与发展的,历史悠久,并且有着浓厚的地方特色。为了增强各民族之间的凝聚力以及弘扬民族文化,国家多次举办全国少数民族传统体育运动会,其对促进民族之间的交流合作与构建和谐社会有着重要意义。本文从阐述少数民族传统体育项目的起源、现状、发展以及特点入手,针对当前少数民族传统体育项目传承与发展存在的问题,以板鞋竞速为例,提出了推进少数民族传统体育运动项目