论文部分内容阅读
文字是计算机进行情感识别的一种重要形态。今天计算机使用者所面对的主要是以文字形式表示的信息。传统上的文本分类往往关注于把文本映射到给定的主题,如体育、经济、政治等。然而,近年来对文本非主题分析的兴趣不断增加,其中就包括文本的情感分类。文本的情感分类即情感识别(textual emotion recognition)是指识别文本中隐藏的情感信息。它已成为人机对话和人机互动的关键部分。常用的文本情感识别方法主要包括以下几种:关键词识别(keywordspotting)、词汇关联(lexical affinity)、基于统计的自然语言处理方法(statistical natural language processing)以及使用常识库(commonsenseknowledge base)识别的方法等等。关键词识别和词汇关联的方法主要是根据句中不带歧义的关键词与情感词典中词汇的匹配结果来识别情感。基于统计的自然语言处理方法适合处理较大篇幅的文本,而且还要依赖于大量的训练数据。使用常识库的识别方法是根据大规模常识库中的知识来识别句子的情感。这些模型在一定程度上可以较准确地分析出文本中的情感,但仍存在一定的局限性,因为人类的情感呈现出特有的复杂性和多变性特征,现有文本情感的研究都只建立在心理学的基础上,没有完整的数学理论基础。且大多数模型利用情感关键词识别方法,既没有考虑当事人的性格对情感的影响,也没有考虑句子所表达事件之间的关系。本文构建了一个基于OCC情感认知识别模型的文本情感识别模型,该模型考虑了性格对情感的影响,同时,又很好的定义了事件之间的关系。在OCC模型定义的情感规则基础上,结合文本和常识库的特征定义了一系列文本情感产生规则,并针对性格模型对文本情感产生规则进行更新,得到符合不同用户性格特征的文本情感产生规则。为使所定义的情感产生规则易于由文本特征实现,本文结合自然语言处理(NLP,Natural LanguageProcessing)和常识库的特点对OCC模型的情感规则进行简化和修正。为将性格模型融入文本情感识别过程中,本文通过对大五人格模型的每一维进行分析针对其特点对基本情感产生规则进行修改,建立针对不同性格用户的情感产生规则。为进一步提高模型识别情感的准确率,减少误判,使用用增量学习(incremental learning)方法收集并训练用户的反馈信息。根据反馈信息,动态的对常识库和情感公式中的阈值进行不断的更新,得到了更完善的常识库和更合适的心情、情感阈值。为了验证模型的文本情感识别准确率,根据此模型实现了一个情感聊天程序,通过对比实验发现,该模型由于考虑了人的情感认知识别过程,对文本情感的识别效果要优于其他模型的识别效果。并且在融入性格因素后情感识别的准确率有很大的提高,加入自学习方式后通过不断的更新常识库和心情、情感激活阈值使得文本情感识别的准确率得到了进一步的提高。