论文部分内容阅读
文本情感分析一直以来都是自然语言处理领域非常重要的一个课题,在当今互联网全面普及的时代,各大社交媒体平台上信息爆炸式增长,各大电商平台下评论数不胜数,广大网友在网上发表带有情感倾向性的意见的机会越来越多,为文本情感分析这个课题提供了海量的数据。海量的数据中往往包含极有价值的信息,比如社会热点事件的舆论动向,电商产品的评价带来的潜在收益,股票市场里各种事件表象之下的暗流涌动等等。如何能够有效地利用情感分析技术去挖掘这些数据中隐含的信息,显然是一个非常有研究意义的课题。基于机器学习的文本情感分析技术发展由来已久,从最初的借助情感词典打分,到抽象文本特征引入支持向量机、朴素贝叶斯等各种分类器,再到当下最流行的深度学习。深度学习在2006年由Bengio提出概念,随后被广泛地应用到图像识别、语音识别以及自然语言处理的领域,取得了许多不俗的突破性进展。作为其中最流行的神经网络模型之一,循环神经网络因其突出的序列处理能力,被广泛应用于自然语言处理的词性标注、机器翻译、命名实体识别等问题中。本文着眼于文本情感分析的两个环节,文本情感分类和中文分词,作者对技术发展过程中具有代表性的技术做了深入调研,重点研究了基于深度学习的文本情感分析技术,并做了归纳和梳理。选择循环神经网络作为本文重点研究的模型,并针对文本情感分类和中文分词两个场景的特点做了相应的模型改进,主要工作可概括如下:首先,对于文本情感分类任务,本文采用长短时记忆循环神经网络LSTM,以克服普通循环神经网络存在的梯度消失或梯度爆炸问题,在此基础上引入双向LSTM以达到更加充分地利用上下文信息的目的;构建了主题级别的情感分析模型,有效地挖掘出句子中尽可能全面的多角度的情感倾向性;最后引入了注意力机制来达到有侧重地利用上下文信息的目标。其次,对于中文分词任务,本文将其看做词位标注加序列生成序列的组合问题来进行研究,在使用双向LSTM的基础上,引入了经过改进的注意力机制。在保证合理利用信息的同时,通过规定注意力运算窗口大小,对注意力的运算做了效率上的优化。