论文部分内容阅读
随着社交网络(包括评论,博客,论坛等等)的兴起,无论是个人还是团体都存在着利用这些信息来做决策的需求。但是,由于网络上的信息太多,人们的个人能力无法解决这项任务,自动化的情感挖掘(Opinion Mining)的任务正是由此而产生的。 虽然在近几年有很多的句子级别([1][2][3])或者篇章级别([4][5])的研究和应用,也取得不错的效果,但是这还远远没有达到人们预期的效果。一篇正面评价的文章并不等价于作者对于该对象的所有方面都是正面的评价,反之亦然。所以,我们需要将评价的粒度继续缩小,缩小到对象级别,称之为基于对象的情感挖掘,主要包含三个子任务:识别抽取文本中的主体、评价对象抽取、判断对于每一个评价对象的情感极性。 本文的研究集中在评价对象抽取,我们调研了目前主流的两类方法:基于规则和基于序列标注模型的两类算法。因为基于规则的局限性,本文主要研究了基于序列标注模型的算法,主要的研究内容包括:传统序列标注方法的实验、深度学习模型的使用与改进以及模型融合三方面,主要的贡献包括: 通过研究序列标注问题以及算法,实验说明深度学习在解决序列标注问题上更有优势。本文对比了隐马尔科夫模型(HMM),最大熵马尔科夫模型(MEMM)、条件随机场(CRF)和循环神经网络(RNN)在序列标注问题中的应用效果,发现使用RNN确实能够取得较好的效果。 通过修改网络结构来改进现有的RNN模型。本文通过引入CRF Layer以及改变网络结构的方式对RNN模型进行优化,并取得了较好的效果提升。同时,本文设计的网络结构,在通用性和准确率上都优于现有算法。 最后采用模型融合的方式,将传统的序列标注的方法和神经网络算法的结果相结合,进一步提高了算法的分类准确率。