论文部分内容阅读
随着Internet文本信息数据的爆炸式增长,带来了越来越多包含作者情感、观点以及看法的非结构化文本数据,如何能够从这些数据中提取出文本情感信息,将极大地影响网络舆情分析、社会舆论导向、商品辅助决策的发展。文本情感分类是指对某待分析文本中蕴含的情感极性做出不同标准的判别分类。传统方法多采用基于统计或规则的方法,随着数据量的增长,对于人力物力的需求越来越大,分类效果却越来越低,不能满足大数据时代的要求。情感分析中的重要环节之一就是中文文本情感分类,在21世纪爆炸信息产生的时代,引起多数研究者眼球的是对于海量数据的情感分类研究,而研究者的目标是要发现如何对文本语义进行深度的学习得到有用信息,表达带有准确特征信息的语义,提高分类中文文本情感极性的准确性。传统的基于机器学习方法,存在不能抽象得出文本语义信息的缺陷,本文在原有浅层机器学习特征的基础上提出了混合堆叠深度学习特征的模型研究文本情感分析,提高抽取出的特征对文本语义信息表达的准确完整性,增加模型对语义的深层理解和深度学习能力。本文的模型在以下方面做了改进:1)使用了新的激活函数,提高了模型的收敛速度和泛化能力,缓解了梯度消失问题;2)使用了新的优化函数,使得在训练过程的每一次偏置校正后,迭代学习率都有确定的范围;3)在模型中加入了Dropout层以及L2正则稀疏化的方法,提高模型的拟合能力,使模型更加精炼;4)在CNN提取局部特征最大值时使用Max Pooling技术;根据网络产品评论数据集以及IMDB英文公开影评数据集的结果表现论证了本文的改进的有效性。此外,本文对设计的模型对比应用了多组模型参数,研究了参数对于深度学习模型的影响。