论文部分内容阅读
随着信息时代的到来,网络上积累了种类繁多、数量巨大的来自个人的文本,例如微博、商品与服务等的评论、论坛中的发帖等等。这些文本中蕴含了大量的信息,其中一个不能被忽视的部分是情感。通过对文本情感的分析,我们可以得到说话人的情绪、其对某个对象的态度、对某件事的立场等,从而把这些信息应用在诸如推荐系统、网络舆情监控等领域,进而推动社会经济发展、规范网络环境的文明健康、为社会的繁荣稳定做出贡献。文本情感分析的途径有很多,其中深度学习方法是近年来的研究热点。在众多深度神经网络模型中,卷积神经网络适合提取数据中的局部信息,而循环神经网络则对数据的序列信息更加敏感。因而在这些网络结构本身不断发展的同时,出现了不少组合模型,结合这两种模型的优点。但通常,这些组合模型是先利用一种模型进行句子级别的特征提取,再利用另一种模型进行段落或篇章级别的特征提取,最后利用分类器进行分类。而本文提出了三种模型,在句子级别实现了这两种模型的结合方案。在前两种模型中,先利用卷积核提取出句子中N元组的高维特征作为一级特征,再利用循环单元提取更高层的二级特征,最后再进行分类;而在第三种模型中则先利用循环单元提取句子的时序信息作为一级特征,再利用卷积核提取更抽象的二级特征,最后进行分类。本文设计了大量实验,通过预处理、文本向量化、模型训练和测试的过程,从众多不同的配置中选取了每种模型最好的一组结果与前人的研究工作进行了对比。在NLPCC2013中文微博情绪分析任务的测试集上进行7分类以及8分类的结果表明,本文提出的三种模型对于提高文本情感分析效果有明显作用。此外,本文设计了多组对比实验,从结果中分析了可能影响模型预测性能的因素以及改进方案。