论文部分内容阅读
随着互联网技术的发展,越来越多的网络用户在互联网平台上所产成的情感数据呈爆炸式增长,网络用户每天都会发布并传播高达上亿的信息量,在这些海量的文本信息中,很大一部分是表达用户观点和情感倾向的文本数据,因此有关情感分析的研究逐渐成为自然语言处理领域的重要研究目标。随着计算机技术的发展,传统的统计研究方法已经不能满足现在大数据的数据状况需求。因此,本文通过搭建深度神经网络框架,利用其端到端的数据处理能力和较快的计算速度,针对从各大网商平台搜集的购物评论数据进行有关情感分析的研究。本文对深度神经网络模型解决情感分析问题做了较深入的研究,其中重要的研究工作如下:(1)针对情感分析中的传统研究方法进行综述性介绍,并从统计语言模型、词向量技术以及现有基于深度学习框架的神经网络模型等方面对情感分析研究的主流方法进行总结。(2)针对大量的评论数据集进行分析发现,现有主流的评论数据的形式多以句子形态存在,并且具有一定的输入长度限制,例如微博评论文本长度最多为140字,这些评论数据大多属于短文本范畴。因此本文将以词作为单位将评论数据进行分词处理,然后将分词结果进行编号处理,再以“词向量”的矩阵形式输入到LSTM模型中进行分类学习,利用LSTM结构具有端到端的特性,可以直接将原始数据和标签输入,自动完成学习任务。并且测试集的分类准确率达到91.23%。(3)针对LSTM对于数据的向前依赖问题,本文设计了双向LSTM模型和双向GRU模型,探究了双向LSTM和GRU模型对于情感分析研究的影响。该方法利用深度学习工具Karas库的相关架构,可以大大降低神经网络相关代码编译的复杂程度,对模型进行优化处理后,最终的实验结果准确率分别为92.47%和91.69%。(4)针对模型的优化,本文提出了 Attention机制,由于本文的语言模型是典型的时序模型,通过引入Attention矩阵,对数据上下文进行权重的筛选,从而加强了数据特征的选取精确度,最终的实验结果准确率达到97.83%。