论文部分内容阅读
文本情感分析(Sentiment Analysis)是指对自然语言文本中所含的情感倾向如正向(positive),负向(negative),中性(neutral)等进行自动分类,帮助计算机理解人类自然语言文本的情感表达,从而更加细致地了解用户的情感倾向。情感分析作为自然语言处理(Natural Language Processing)的一个重要模块,可以运用到许多相关的应用中,如预测股票走势分析、社交网络的分析等。随着信息科技的日益发达和社交网络的普及,人们更倾向于使用短文本来表达情感或者评论,比如目前流行的Twitter、微博、手机短消息等,因此本文着重研究互联网中用户生成内容的句子级和实体属性级的文本情感分析。句子级文本情感分析是识别一句话的情感倾向,实体与属性级文本情感分析是判断句子中某个命名实体(例如手机)或者它的某个属性(例如电池)的情感倾向。对于句子级文本情感分析,本文着重研究口语化文本的句子级文本情感分析。本论文采用有监督的机器学习算法来建立分类模型。首先抽取词语特征、情感词典特征以及词性特征,然后通过使用不同的机器学习算法来训练与预测结果,得到每个句子情感倾向性判断的结果。这是本论文的第一个研究内容。本论文的第二个研究内容是对实体与属性级文本情感分析。本文着重研究笔记本电脑(Laptop)与酒店(Restaurant)这两个实体领域的评论。研究内容包括两部分:(1)属性词的抽取和(2)针对这个属性词进行情感倾向判断。针对第一个内容,我们采用了命名实体识别(NER)和名词短语抽取两个方法。对于属性词情感倾向判断,我们首先抽取词语特征、情感词典特以及词性特征等,然后通过使用不同的机器学习算法来训练模型,预测句子中抽取属性词的情感倾向性。在SemEval2013和SemEval2014相关数据集的实验结果表明,基于命名实体识别的方法可以更准确地抽取实体属性词,采用多样化的特征抽取和有监督的学习算法可以有效进行句子级和实体属性级情感倾向判断。