论文部分内容阅读
本文研究了英语中情态句的情感倾向性分析问题,即根据情态句中表达的情感倾向将它分为褒义、贬义或中立类。情感倾向性分析是意见挖掘里的重要研究内容,很多研究人员在这方面做了大量的工作,旨在通过改进特征设计及分类方法提高情感倾向性分析的准确率。但随着这类工作的逐渐成熟,分析效果已经很难再有较大提高。这类工作的一个明显的不足是没有考虑不同句型本身的特点。近几年一些学者指出,很难找到一种一刀切的方法有效的处理不同句型的情感分析问题。需要采用分而治之的方法,将特殊句式的句子抽取出来,针对它们的特点单独处理。受这些工作的启发,我们研究了英语中一类特殊句型——情态句的情感倾向性分析问题。情态句是英语中的常用句型,在我们使用的数据集中约占18%。由于情态句中情态动词的存在,借助词性标注器,我们能够很轻易的将情态句从文本中抽取出来。这也使得我们的方法能够很自然的集成到已有的情感倾向性分析方法中,提高它们的准确率。情态句的一些特点使得它难被通用的方法有效地处理。首先,情态句的情感倾向性可能与句中情感词的情感倾向性相反。这是由于情态动词对情态句的情感倾向性也有一定的影响,例如" should be nice "和"must be nice"的情感倾向往往不同。针对情态句的这个特点,我们提出将情态动词与其后面的情感词结合起来,组成一类新的特征,即情态特征。由于情态特征是情感动词与意见词的组合,在标注数据集中往往存在情态特征稀疏性问题。本文中,我们通过合并近义情态特征(含有相同情态动词与近义情感词的情态特征)来解决该问题。其次,情态句的类型对句子的情感倾向也有一定的影响,例如"I would recommend this phone to all my friends "与" If this vacuum had a more powerful turbo, I would recommend it to everyone "中虽然含有相同的情态特征,但却表达了不同的情感倾向。本文中我们把情态句的类型信息也作为了一类情态相关特征。为了提取情态句的类型特征,我们首先对情态句进行了语言学分析,并根据用法不同对情态句进行了分类。然后预定义了几类特征明显的情态句的模式来提出情态句的情态类别信息。借助词性标签,我们识别了虚拟语气、责任型情态和动态型情态三种情态句。最后,我们使用情感词、否定词等通用特征和情态特征、情态类型等情态相关特征构造了特征向量。然后使用这些特征训练了SVM分类器。实验结果表明,我们针对情态句的特点提出的情态相关特征对提高情态句情感分析的效果有很大帮助。本文提出的合并情态特征的方法在一定程度上缓解了情态特征的稀疏性问题。