基于传播和迁移机制的文本情感分析方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:syh95815
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会媒体的快速发展,网络中涌现出大量带有情感的主观性评论文本,例如微博、博客、购物网站在线评论、旅游及汽车网站评论等。挖掘这些评论文本中隐含的观点和情感,对公共安全服务、电子商务和社情舆情监控等应用至关重要。然而,社会媒体中主观性文本的表达形式具有丰富性、网络文本数据具有复杂性、所属领域具有多样性、数据来源具有多源性。针对这些特性,显式的、通用的情感词典存在无法直接判断文本中隐含的、丰富的情感特征问题;传统有监督学习模型存在不能很好地处理不相关训练数据的问题;仅使用目标领域的带标签数据,将存在特定领域的数据量偏少的问题。为了解决以上问题,本文借助了情感传播和迁移两种机制,针对词语级到文档级、领域内到领域间两种层次的情感分类任务,开展了微博特定领域的情感词典构建、三层情感传播模型的建立,分组提升集成方法、集成深度迁移方法和多源领域适应联合学习框架等跨领域的情感分类方法的研究。本文的主要研究内容和成果可概括如下:
  (1)基于情感上下文传播的特定领域情感词典构建方法。情感词典的构建是情感分析中一个基本和重要的任务。由于情感词汇与领域具有较大的依赖性,不同领域的情感词在表达和用法上也存在差异。针对微博特定领域情感词典的建立任务,本文假设词语的语义与上下文词汇的语义具有一致性,提出了一种面向中文微博的显式和隐式情感词抽取方法,并应用到微博情感分类任务中。该方法首先从微博中抽取情感单元作为表达情感的基本元素,使用社会关系和局部上下文确定情感单元之间的关系,利用情感传播算法得到显式和隐式情感特征的情感分值。通过实验,验证了特定领域词典的有效性,同时微博情感分类性能有一定提升。
  (2)基于文档、主题和词的三层文本情感传播模型。评论文本中的情感蕴含在不同的主题和词之下,且有强弱之分。为了挖掘描述文本的情感倾向及其情感强度,需要为每个文本估计一个准确的情感分值。本文假设情感邻居在情感传播网络中具有相同的情感极性和相似的情感强度。为此,提出了一种利用文档、主题和词之间语义关系的三层情感语义传播方法。该方法在情感传播网络中依次实现文档、主题和词的情感传播过程,并通过连续的迭代得到文档的稳定情感分值。在多个领域的情感数据集上的实验结果表明,使用情感强度作为模糊隶属度以及权重训练模糊支持向量机模型,可以有效解决不相关训练样本带来的敏感问题。
  (3)基于分组提升集成的单源跨领域文本情感分类方法。由于文本具有领域多样性,而不同领域中拥有的标注样本不尽相同。针对跨领域文本情感分类任务中目标领域带标签文本数量偏少的问题,本文提出了一种基于分组提升集成的跨领域文本情感分类方法。首先利用少量人工标注的目标领域数据,基于合成过抽样技术产生一定数量的虚拟数据。在此基础上,采用BootStrapping方法获得更多目标领域高可信度的带标签数据。在分类器的构建方面,首先将源领域的带标签数据等量分割,并分别与目标领域带标签数据组合,在每个组合数据块上运用AdaBoost方法提升地训练多个分类器,并将这些分类器线性地集成为一个分类器。通过实验验证了初始标签标注算法可以解决目标领域带标签数据量不足的问题,数据分组集成策略可以解决迁移过程中源领域与目标领域数据量失衡所引起的分类器偏置问题。
  (4)基于集成深度迁移学习的多源跨领域情感分类方法。虽然文本所属的领域不同,但是其知识之间仍存在某种共性和交叉。当目标领域缺乏标注数据,其他多个源领域的标注数据比较充足时,可以使用多个源领域的数据辅助目标领域的跨领域情感分类任务。为此,本文结合集成学习和深度迁移学习的优势,提出了一种多源信息融合的集成深度迁移学习方法。该方法利用深度迁移学习实现特征提取和模型迁移,有效提升了跨领域的特征表示能力。为了充分利用所有源领域信息,我们采用集成学习框架对训练好的迁移学习模型进行集成,实现多源情感信息的融合。实验结果验证了集成深度迁移学习方法通过深度特征抽取和模型迁移,以及采用集成学习对源领域数据进行加权处理,可以有效地避免负迁移,并提升了跨领域情感分类的准确率。
  (5)基于多源领域适应联合学习的多源跨领域情感分类方法。已有的领域适应方法往往只关注于单个源领域到目标领域,且样本规模普遍较小。为了有效利用和融合多个领域的情感知识,本文针对多源跨领域情感分类任务,提出了一种新的多源领域适应联合学习方法。该方法利用双向门循环单元和卷积神经网络进行深度特征提取,采用软参数迁移的方法进行领域参数共享。在考虑情感分类损失的同时,还考虑了领域融合损失。通过实验表明,多源领域适应联合学习能够在目标领域数据有限的条件下,可以更好地实现情感迁移,提升泛化能力。
其他文献
目的探讨体位和呼吸运动对于椎静脉血流动力学的影响。方法 50例健康志愿者分别取坐位和仰卧位,超声观测椎静脉在平静呼吸、深吸气末和深呼气末时的血流动力学变化。结果卧位,平静呼吸时椎静脉的横截面积为0.04±0.02 cm~2,血流速度19.25±8.88 cm/s,血流量为47.26±25.40 ml/min,占脑血流总量的百分比为4.17%,深吸气末椎静脉的血流速度和血流量显著下降。坐位,平静呼吸
纯电动汽车可实现真正的清洁无污染排放,是未来交通运输的发展目标。纯电动汽车的复合能量源由蓄电池和超级电容组成,高比能量的蓄电池作为动力电池通过双向直流变换器建立母线电压,提供母线稳态低频功率,高比功率的超级电容通过双向直流变换器连接直流母线提供瞬态高频功率。复合能量源协同工作,为直流母线提供所需的双向功率。因此研究高效宽增益的双向直流变换器以及复合能量源系统协同运行的控制策略对电动汽车的快速发展、
现阶段,高温超导磁悬浮成为了轨道交通研究的新方向。高温超导体具有的迈斯纳效应和钉轧效应为车辆提供了悬浮、导向作用,省掉了复杂的控制系统。传统高温超导磁悬浮轨道交通系统轨道的铺设均采用永磁体,局限了高温超导磁悬浮轨道交通的大规模工业化应用。从长远角度看,由电磁体构造高温超导磁悬浮交通系统的轨道具有诸多优势。本论文通过系统对比的方法研究永磁轨道和电磁轨道特点,比较其各自的优点和不足,掌握电磁轨道的内在
学位
目的弓形虫(Taxoplasma gandii)是一种世界性分布的人兽共患弓形虫病病原,可自然感染人和羊、猪、牛、马、狗、猫等多种动物。弓形虫主要侵害幼畜,羔羊发病后表现为免疫力低下、生长缓慢、消瘦、贫血以及呼吸和神经系统症状,严重时可引起死亡,怀孕母羊感染后常因广泛病变而导致流产、不孕、死胎、造成繁殖障碍。通常情况下,免疫功能正常的人感染并不引起明显的临床症状,但当机体免疫功能受损或受到抑制时可
激光二级管(LD)及其列阵(LDA)泵浦的固体激光器(DPSL)具有高效率、紧凑、稳定、长寿命和光束质量高等优点,在军事上、工业、医学和科研究上有着广阔的应用明景,它的研究已成为洲光器件领域内的一个非常活跃的方向.研究人员利用国家教育部回国留学人员资助基金和山东省教委二标项目基金,研制成功了LD泵浦的3.22W Nd:YVO1.34μm激光器.该论文从理论方面研究了LD端面泵浦的固体激光器阈值泵浦
大气颗粒物采样器是《全面禁止核试验条约》中放射性核素监测的关键设备。作为条约规定的职能之一,放射性核素实验室应具备大气放射性颗粒物样品的采集和分析能力,因此所安装的采样器应满足条约对国际监测系统中大气颗粒物采样器的相关要求。结合实验室实际情况,成功研制了 PMS-800大气颗粒物采样器。该采样器具有稳流采样功能,在颗粒物浓度较大时可以延长采样时间。测试表明,PMS-800大气颗粒物采样器最大流量达
[db:内容简介]
反应堆、后处理工厂等核设施产生放射性气溶胶,通常用高效过滤器过滤,达可排放标准后排放到环境大气中。理论认为微粒通过惯性碰撞、扩散、重力沉积和静电吸附等机制被捕获到滤材上。国内外对高效过滤器进行了长期研究,认为对不同粒径的粒子有不同的过滤效率,随粒径的增加,过滤效率呈山谷形分布,最易透过滤材的粒子粒径为0.2-0.3微米。对该粒径,多级高效过滤器的每
It(o)型微分方程被广泛用于描述存在结构突变和随机干扰的实际系统,这类系统被称为It(o)型Markov跳跃系统。由于这类系统可以很好地刻画实际系统存在的结构突变和外部干扰,因此在理论和工程中都有很强的研究价值。在研究It(o)型Markov跳跃系统的线性二次型最优控制时,耦合Riccati矩阵方程有着重要的作用。由于耦合Riccati矩阵方程存在结构非线性,因此这类方程的求解存在一定难度,也一
在高速发展的当今社会,每日产生的数据量呈爆发式增长,我们已经全面进入大数据时代。而大量的数据也为人工智能相关技术的发展提供了宝贵的土壤和原料。从数据中发现和挖掘出其所蕴含的相关模式,并进行新任务的预测是人工智能的核心。而各种不同来源的数据,包括视频、音频、图像、文本等构成了庞大且复杂的多模态数据。如何充分利用这些繁复的多模态数据,并从中挖掘出有用的信息也是弱人工智能向强人工智能进化的必经之路。多模
学位