论文部分内容阅读
随着社交媒体和移动设备的日益普及,越来越多的人在社交平台对热点事件或特定商品发表自己的观点看法,随之而来的是带有情感信息的爆炸式增长。如何从海量的信息中挖掘出关键性主题和文本所表达的情感信息变得尤为重要。现有的基于深度学习的主题发现和情感分类方法可以取得较好的效果,但也存在明显不足。主要表现在主题模型往往从全局文本进行建模,但缺乏对局部情感极性的挖掘;而情感分类模型只利用文档的词语信息,却忽略了潜在的主题信息。针对上述问题,本文对主题发现和情感分类进行联合分析。本文首先研究结合对抗策略的主题情感联合模型。该方法将变分自编码器用于主题发现的建模,将层级注意力网络用于情感分类的建模,进而设计对抗训练的策略,最大化每个词语对应的主题向量与注意力向量的相似度,以达到利用主题向量指导情感注意力信号的计算和利用情感注意力信号指导主题向量的学习的目的,实现两个任务的互相促进。在公开英文评论数据集Yelp2013和IMDB(Internet Movie Database)上的实验显示,结合对抗训练策略的主题情感联合模型,在主题发现任务的主题一致性值提升了1.5%和1.5%,同时情感分类任务的准确率分别提升了1.2%和5.2%,显示了结合对抗训练策略的主题情感联合分析方法的有效性。基于变分自编码器的主题模型的优化目标是最小化重构原始文档的误差,而不是提高生成主题词的质量,因此存在不易判断主题词质量的不足。为此,本文进一步研究结合强化学习的主题情感联合分析模型。该模型借助强化学习的思想,应用主题一致性衡量指标和主题重叠率作为奖励函数以提高主题模型的建模能力,进而融入到主题情感联合模型的学习中。在Yelp2013和IMDB数据集上的实验显示,结合强化学习的主题情感联合模型生成的主题一致性值进一步分别提升了5.4%和3.2%,同时情感分类任务的准确率进一步分别提升了0.4%和0.3%。这一结果显示了结合强化学习的主题情感联合模型可以有效提高主题发现和情感分类的性能。