面向异构文本的情绪分析方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:mazipeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情绪分析是一种细粒度的情感分析任务。基于机器学习方法的情绪分析任务旨在训练机器学习模型,将输入文本自动标注以预先定义好的情绪类别(即情绪分类任务),或是将输入文本自动标注以情绪分数(即情绪回归任务)。异构文本是指包含两个或多个不同语言、不同领域、或拥有不同标注体系语料的集合。传统的情绪分析任务若要取得良好的效果,需要利用大规模的单语、单领域、单一标注体系的语料库来进行模型的训练,而这样的语料往往难以获取。因此,如何建模异构文本间的关系,利用大规模异构文本来训练情绪分析模型,从而缓解语料不足的问题,一直以来是情绪分析研究的重点和难点。
  本文主要研究面向异构文本的情绪研究方法,并从三类常见的异构文本:跨语料库文本、跨语言文本、以及跨领域文本出发,探索上述三类异构文本间关系的构建方法,并在此基础上利用异构文本进行情绪分析任务的研究。具体来说,本文的工作可以归纳为以下三点:
  (1)跨语料库的情绪分类方法研究
  由于缺乏一个公认的情绪分类标注体系,现有的情绪分类语料库往往采用不同的情绪分类体系,而这些情绪分类体系包含不同的情绪类别,导致一个情绪分类语料库中的语料无法直接合并到另一个采用了不同情绪分类体系的语料库上。针对这个问题,本文首先提出了一个新任务:语料库融合,并使用整数线性规划的方法来解决这个任务。本文首先利用整数线性规划的限制条件来构建不同语料库分类体系之间的关系,之后在两个采用了不同情绪分类体系的语料库上独立地训练两个分类器,最后使用整数线性规划对两个分类器在同一个测试集上的分类结果进行优化。实验表明,相比于在单一语料上训练分类模型,通过整数线性规划能够有效地提升情绪分类任务的精确度。
  (2)跨语言的半监督情绪分类方法研究
  尽管个别语言下(如英文)的大规模高质量的有标注语料比较容易获取,多数语言下(如中文或其他小语种)有标注语料往往规模较小。因此,如何利用资源丰富的英文语料来帮助其他语言下的情感分析任务一直是该领域的研究热点。本文针对这一问题,提出了一种基于对抗式神经网络的跨语言半监督情绪分类方法。该方法通过在神经网络方法中引入对抗式学习,来利用丰富的有标注英文情绪分析语料和无标注中文语料,更有效地从中学习有用的信息来帮助判别中文文本的情绪类别。实验表明,本文提出的基于对抗式神经网络的跨语言情绪分类方法在两个中文基准测试集上不仅优于传统的有监督方法和半监督方法,更优于近年来最先进的跨语言半监督情绪分类方法。
  (3)跨领域的多维度情绪回归方法研究
  与情绪分类任务相比,情绪回归任务更适合作为细粒度的情绪分析。情绪回归任务从三个情绪维度:极性、强度、可控性来对输入的文本进行打分。然而,现有的情绪回归研究多为针对单一维度来训练一个或多个回归模型,并未考虑情绪维度之间的关系。针对这一问题,本文提出一种基于对抗式神经网络的跨领域多维度情绪回归的方法。该方法通过对抗学习,既可以从文本中学习更好的针对不同情绪维度的特征,亦可以更好地利用不同领域的文本来辅助本领域的回归。实验表明,本文提出的基于对抗式神经网络的跨语言情绪回归方法在一个大规模多领域情绪回归语料库上的情绪回归性能优于近年来的先进系统的性能。
其他文献
在信号场之于无限边界的开放空间域上,构成了继陆、海、空、天的第五空间域,形成了物理空间内人与人、物与物、人与物的动态可交互虚拟空间。国家在无界开放网络空间域上提出保障信息和资源安全和保障关键信息基础设施互联互通的战略要求,势必为网络空间安全重要内容之一的网络异常行为检测和识别研究提出新的挑战。  本文以国家网络空间安全战略为导向,以保障关键信息基础设施互联互通为目标,立足分组交换技术的网络环境,针
物联网作为世界信息产业发展的第三次浪潮,未来发展潜力巨大。物联网是支撑城市智能交通的重要技术。在面向城市交通的物联网环境下,通过改善基础设施、实施城市交通专用道、快速城市交通、轨道交通等多模式,应用先进信息技术,城市交通得到了快速发展,对城市居民出行发挥了重要作用。面向智慧城市交通物联网的图像数据是大数据,基于该大数据,从系统工程的视角出发,在分析交通规划的影响因素及城市交通能力及运行现状调查分析
随着互联网的飞速发展,通过互联网获取相关信息已经成为现代人获取信息的常用方式。搜索引擎等网络检索系统的出现,加速了网络信息获取的速度和准确性。然而,以搜索引擎为代表的检索系统并不能完全满足用户的搜索需求。为了使搜索结果更加贴近用户当前的搜索需求,搜索排序技术和查询扩展技术极大的提高了搜索的准确率,从而提高了用户的搜索体验。然而,现有的搜索排序通常基于PageRank等传统的排序技术,并没有考虑用户
学位
网络广告能以较低的成本将商品和服务信息传播到世界的各个角落,逐渐形成了一个以计算和技术驱动为特征的网络广告市场。作为广告系统关键部分,点击率预测建模需要处理广告、上下文、用户三方复杂的信息,识别其中潜在的模式和规律,是行业中具有相当难度的问题,引起了工业界与学术界的广泛兴趣。研究广告点击率预测,对于降低广告投放成本、提升用户体验和提高媒体金融收益,都有重要的理论和实际意义。  近年来,国内外关于点
学位
拥堵已成为我国交通领域亟待解决的问题之一。为缓解该问题,我国已在多个城市建立了浮动车监控调度平台。浮动车系统具有低成本、高覆盖率、实时性强等特点,可实时反馈交通状态,该系统的建立在一定程度上缓解了交通拥堵。本文面向交通状态辨识建立浮动车数据的时空语义模型,将其划分为时空位置语义、道路几何语义和道路场景语义3个层面,并针对每个层面目前存在的问题提出相应的解决方案。本文主要研究工作及贡献体现在以下几个
学位
随着终端接入数目和种类日益增加,越来越复杂的物联网应用难以被实时高效的处理已成为制约其业务发展的瓶颈。一方面,由于物联网(IoT)在一些应用领域,比如虚拟现实,增强现实(VR/AR),超高清视频直播以及智能制造等提出了复杂、多样、实时等新的业务需求。另一方面,目前的物联网终端设备存在处理能力不足且电池容量有限等缺点,难以为复杂多样的物联网应用提供实时处理。边缘计算服务的出现,为这些应用提供了有效的
学位
认知协作网络是一种基于协作通信技术的认知无线电网络,不仅解决了不同网络在特定的时间与空间中频谱资源分配不均的问题,而且可以通过主次用户间的协作提高网络性能。但随着各种无线技术和移动应用日益丰富,由于无线信道的固有特性,服务质量不仅会因信道衰落与频谱竞争引起传输性能下降,也会因安全问题造成性能损失与波动。因此,如何提升认知协作网络的传输效率,保证传输的安全稳定是传输机制的研究中首要解决的问题。本文从
学位
随着信息技术的飞速发展,模式识别受到越来越多的关注,并在不同的领域得到广泛应用。聚类是模式识别的重要组成部分,其依据给定的相似性度量将数据划分成若干个类,使得同一类内的数据相似度较高,而不同类之间的数据相似度较低,从而发现隐藏在数据中的规律与关联信息。尽管聚类算法的研究已经取得了丰硕的成果,但是在处理大数据时,仍然受到时间、空间和CPU等资源的限制,面临聚类效率低下的境况。如何研究设计出新的聚类算
学位
作为互联网的延伸和拓展,物联网带来了再一次的信息产业浪潮,在各行各业得到了普遍关注,应用遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业检测、农业栽培、食品溯源等多个领域。从课题规划到产业政策,国内外相关产业均积极投入到紧锣密鼓的研究之中。可以连接到物联网上的节点包括人和其它各种物品,其数目具有海量的特征,远远超过目前互联网中节点数量。为了实现这些事物之间的有效通讯,并实现人与
学位