论文部分内容阅读
随着web2.0的发展,互联网深入人们生活的方方面面,同时为人们提供了更加方便和宽广的信息交流平台。越来越多的用户在社交平台上表达自己的想法,在购物平台上阐述自己对产品的使用看法,在新闻平台上发表个人观点,由此产生了大量包含用户观点信息的文本数据,因此分析这些文本数据的情感极性也就有了很重要的价值。情感分析又称意见挖掘,是对网上各种新闻资源、社会媒体评论和其他用户生成内容的进行分析、处理、归纳和推理的过程。文本情感分析是情感分析算法的一个分支,典型的监督分类算法都适用于文本的情感极性分析。然而,当训练数据与测试数据不属于同一个领域的时候,传统的分类方法的预测效果就变得很差。通常是因为源领域有强烈情感性的特征在目标领域可能不再具有这些特征或是呈现其他情感极性,为了将源领域的特征泛化到目标领域特征中,并对目标领域进行情感分析,跨领域情感分析成为了解决方案之一。跨领域情感分析方法当前主要关注用特征提取器提取多个领域之间的共享情感特征。其中利用深度学习中特征提取网络优秀的特征提取能力提取不同领域之间的共享情感特征,再利用共享情感特征进行情感分析是当前跨领域文本情感分析的主要研究方向。目前深度学习方案中主要利用自编码器和域对抗实现共享情感特征的提取,因此本文主要优化改进域对抗能力以及利用深度学习中的各种不同的网络结构提取句子中的语义信息,最后将提取出来的不同领域文本中的共享情感特征用于文本情感分析。本文的主要研究内容,及创新点如下:(1)由于不同领域之间的特征不同,使用以往的域对抗方式容易出现梯度消失和梯度爆炸,并且提取的特征泛化能力差的问题。本文通过提出基于Wasserstein距离的域对抗方式,然后结合正交约束来更好地提取领域深层共享特征,同时在整体网络结构上使用降噪自编码器,使得特征提取器能够提取出鲁棒性更强的领域共享情感特征。(2)针对以往特征提取方式提取的共享情感特征中缺少句子语义信息等问题,本文使用BERT模型获取句子中的语义信息,再借助卷积神经网络对提取的特征进一步的特征选择以及特征降维。然后借助域对抗机制混淆源领域和目标领域的特征,同时利用源领域含标签的数据训练情感分类器。最后在亚马逊公开数据集上的对目标领域情感极性进行预测,并且取得了较好的预测结果。