论文部分内容阅读
随着互联网技术的不断发展,诸如微博、QQ、微信等社交平台,京东、淘宝等网购平台,可以说互联网的产物层出不穷。而在日常生活中,人们日渐频繁的上网行为,通过这些平台发布的评论形成了散布在互联网中数量级巨大的短文本数据。挖掘这些短文本数据中蕴含的丰富情感观点以及态度,对于政府部门进行舆情监控、卖家制定营销策略以及买家做出购买决定等具有重要且明确地指导意义。短文本数据往往呈现出篇幅较短,上下文特征稀疏以及语言表达口语化等特点,这为短文本数据挖掘带来了巨大的挑战。近年来,条件随机场与深度学习模型在图像处理、文本挖掘以及个性化推荐系统等领域的应用越来越广泛。条件随机场是一种基于条件概率分布的模型,克服了标注数据时常见的标记偏差问题,可以有效地提取评论文本中包含的评价对象等相关信息,而深度学习模型可以在弱监督下,主动学习评论文本中包含的情感倾向信息,这些优势决定了两种模型在短文本挖掘领域受到的关注度越来越高。由于评论文本体现出的情感倾向,与文本中的评价对象有着密切的联系,本文在条件随机场与深度学习模型的基础上,分别提出了针对于短文本评价对象识别与情感分析两个方面的短文本挖掘方法。本文的工作主要有:(1)针对短文本数据上下文特征稀疏、语言表达口语化导致的语法运用缺乏准确性,语法特征很难发挥作用的情况下,本文提出了基于词特征与语义特征的评价对象识别方法。该方法是在条件随机场模型中引入语义特征,捕获评论文本中类似于“施事者+形容词性情感词”、“动词性情感词+受事者”形式的结构,然后将该特征转化成特征函数,训练一个特定的条件随机场模型,最后将语义特征与其它不同类型特征进行组合,分别训练得到各自组合对应的条件随机场模型,根据模型的识别效果找到最佳的组合特征。通过在酒店评论语料与手机评论语料上进行实验,相较于引入语法特征,语义特征的识别效果在准确率(P)、召回率(R)、F值上均有提高,表明了引入语义特征的有效性,并且将词特征与语义特征进行组合取得的识别效果最佳。(2)由于短文本上下文特征稀疏,而且句子中的每个词语对情感极性的影响并不相同,本文针对这一问题提出了基于Attention-BiLSTM模型的短文本情感分析方法。该方法利用标准的LSTM模型对句子进行正反两个方向的建模编码,并且引入Attention机制,为句子中比较重要的词语赋予更高的权重。考虑到句子中不同评价对象可能对应不同的情感极性,本文又在隐层向量输入Attention层之前融入了评价对象信息,对模型作了进一步的改进。通过在SemEval 2014 Task4中的餐厅评论语料上进行实验,与LSTM、BiLSTM以及TD-LSTM模型相比,所提模型取得了更高的准确率。