基于分布式表示学习的文本情感分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分析主要研究如何使计算机能够自动识别、分类、标注或抽取自然语言文本中包含的对某个给定主体或话题所表达的情感、情绪、观点、评价等主观性内容。传统的文本情感分析方法多基于词袋模型等浅层特征表示,但此类表示方法存在数据稀疏、丢失原始文本语义信息等问题。近年来,借助神经网络模型将文本表示成一组低维、连续、稠密向量形式的分布式表示学习在自然语言处理领域得到了广泛的应用。这类表示方法不仅能够克服数据稀疏问题带来的维度灾难,而且能够具有语义相关、逐层复合等特性,为文本情感分析研究开辟了新的途径。在此背景下,本文研究基于分布式表示学习的文本情感分析方法,主要包括以下四个方面的内容:第一、基于情感目标相关句子类型分类的语句级文本情感分析方法。传统的情感分类方法多采用同一个模型处理所有类型的句子。对情感标注语料进行观察发现句子中情感目标的数目与句子的复杂度以及进行情感分类的难度之间存在紧密联系。为此,本文采用分而治之的策略,提出一种基于情感目标相关句子类型分类的语句级文本情感分析方法。首先,利用带有条件随机场的双向LSTM神经网络序列标注模型识别情感句中的情感目标。然后,按照情感目标的数量将基于分布式表示的情感句分成三个集合。分别在这三个句子类型集合上训练分类器,进行参数的调节和模型的优化,最终得到基于目标相关句子类型分类的语句级文本情感分类器。在四个英文语句级情感分析数据集上的实验结果显示,本文提出的方法优于多种对比方法,提高了情感分析的性能。第二、基于分布式表示过采样的语句级文本情感分析方法。情感分析语料中普遍存在训练语料中不同类别样本比例不平衡的情况。这种数据不平衡会导致基于有监督的机器学习分类器出现分类偏置。过采样方法是一种常见的解决数据不平衡问题的方法,但基于词袋模型表示的过采样方法容易产生“小间隙”问题,即新生成的样本可能与其他类别的样本的特征更相似,导致分类器性能提升有限。考虑到分布式表示向量具有语义相关的内在特征且同一个类别中的表示向量内聚性更好的优点,本文提出一种基于分布式表示过采样的语句级文本情感分析方法。该方法首先为情感语料文本构建分布式表示。然后,应用过采样方法为不平衡语料中的少数类在分布式表示空间上生成新的样本,并使用平衡后的数据进行分类器训练。在单标签二分类英文情感分析数据集和多标签多类标中文情绪分类数据集的实验结果显示该方法新生成的样本可以较好地克服“小间隙”问题,改善有监督机器学习方法在真实不平衡文本上出现的分类偏置问题,提高情感分类性能。同时,该方法与基于目标相关句子类型分类的情感分析方法结合使用,可以进一步提高情感分类性能。第三、基于逐层分步复合的文档级文本情感分析方法。自然语言天然存在层次结构,从词到句子再到文档越往上表示的语义越复杂,这与分布式表示的逐层复合特征具有相似性。现有基于深度神经网络逐层复合生成文档级分布式表示的文本情感分析方法存在网络结构复杂、难于训练以及无法利用语句级情感分析任务相关的标注信息等问题。针对上述问题,本文提出一种基于逐层分步复合的文档级文本情感分析方法。首先,先从词到句子训练一个有监督的一维卷积神经网络。然后,从句子到文档训练另一个一维卷积神经网络,逐层进行语义复合。最后,利用该方法为情感评论文档生成分布式表示,进行文档级情感分析。在三个大规模评论文档数据集上的实验结果显示该方法不仅能够提高文档级情感分类的性能,同时还能够降低神经网络训练的难度,并有效利用语句级情感标注信息。第四、结合用户与商品分布式表示的多文档文本情感分析方法。针对不同用户打分存在偏好(宽容、苛刻)以及对于不同商品(人气高的、不知名的)存在打分偏好的现象,可以对用户和商品偏好进行建模,生成个性化的用户和商品的分布式表示。但现有方法通常将同一个用户发出的众多评论以及同一个商品收到的众多评论看作无序的集合,忽略了评论之间的时间顺序。为此,本文在语句级和文档级文本分布式表示的基础上,提出一种结合用户与商品分布式表示的多文档文本情感分析方法,在文本信息的基础上,进一步结合用户、商品等多个信息源进行情感分析。首先,利用基于逐层分步复合方法生成评论文档的分布式表示。然后,利用带有门循环单元的循环神经网络建模评论之间的时序关系,提高用户与商品分布式表示的效果。最后,利用机器学习分类器对用户、商品和评论的分布式表示的拼接向量进行情感分类。在三个大规模的商品评论数据集上的实验结果显示该方法能够充分利用多种来源的信息,有效提高文本情感分析的性能。综上所述,本文紧扣基于分布式表示学习的文本情感分析这一研究问题,利用分布式表示的内在特征,结合文本情感分析任务的特点,分别从语句、文档、多文档三个层面研究基于分布式表示学习的情感分析方法,不断提高文本情感分析的性能。
其他文献
随着世界经济的高速发展,人类对于能源的消耗和需求也日益增多,环境和能源的双重危机迫使人类寻找新的能源利用方式。光伏发电因其能量来源永不枯竭、清洁无污染的优势,成为
本文提出军队医院在严把聘用人员入口关、健全绩效考核和淘汰机制方面的一些做法,并通过规范人员培训机制,全面提升聘用人员的能力素质,为军队医院的发展注入了新的活力。
目的分析联合国驻黎巴嫩临时部队(联黎部队)中国二级医院患者就诊信息,为后续维和医疗分队训练、药品器材筹措等提供参考。方法查阅联黎部队中国二级医院信息管理系统,对2009年
家电下乡工程2008年开始实施以来,刺激了农村家电消费市场,一定程度上起到了拉动内需的作用,也改善了农民生活质量。为了更好地了解此项工程在我县的实施情况,我们于2009年10
研究目的:通过临床试验,观察“楂曲平胃散加味”联合穴位埋线治疗脂溢性脱发的疗效及安全性,为临床治疗脂溢性脱发提供简便、易行、安全、有效的治疗方法。研究方法:所有病例
本文阐述医院近几年着力加强内涵质量建设,推动医院健康快速发展,提升服务保障水平的做法。具体包括突出龙头,加强实备,有效提高应急卫勤保障能力;盯住细节,持续改进,建立服
随着我国经济的飞速发展,财产保险业也进入了一个高速发展的阶段。在这样一个重要阶段,财产保险市场应该充分发掘自身存在问题,并根据问题制定相应的对策,从而使我国的财产保
目的研究军队卫生事业管理专业硕士对自身能力的评价。方法通过问卷调查的形式对108名军队卫生事业管理专业硕士进行调查,并对调查结果进行统计学描述。结果优势能力评价指标