论文部分内容阅读
社交网络的迅速兴起,网民规模的不断攀升,使得以互联网为代表的新兴媒体已经成为广大群众表达诉求、抨击时弊、建言献策、沟通交流的重要工具,成为群众行使知情权、参与权、表达权和监督权的重要渠道。与此同时,网络用户也由信息的被动接收者转变为信息的生产者,这便造成了用户产生的大量评论信息在互联网上堆积的情形。不仅如此,用户产生评论信息中还蕴含了用户情感态度、政治倾向等信息。挖掘用户产生内容信息所携带的情感信息,分析用户的情感倾向,对商品推荐、舆情发现以及信息预测等均有着重要的意义。迄今为止,研究者在倾向性分析领域做出了大量的研究,推进了倾向性分析研究的进步。由于用户的情感倾向性信息多蕴含在用户产生的文本信息中,而自然语言处理本身便是一项极具挑战性的工作。再加上蕴含在用户产生评论信息中的情感倾向还会依据语境的不同而发生变化,这便使得倾向性分析存在以下几个亟待解决的问题:倾向性分析存在语料分布极度不平衡现象。一些领域的语料容易通过互联网获取,而某些领域的语料属于稀有资源,如何解决语料分布不平衡问题,使得构建的情感词表具有较高的领域可移置性,达到跨领域倾向性分析的目的是当前亟待解决的首要问题。情感词不仅具有领域依赖性,而且具有上下文依赖性,同一个情感词在不同的上下文环境中会表现出不同的情感倾向,导致系统精确度大幅降低。如何解决情感词的上下文依赖问题是提高倾向性分析的关键所在。针对复杂的语言现象,如何捕捉比较词、否定词以及句式等因素对句子倾向性的影响,能否构建一个合理的句子倾向性分析模型,捕捉影响句子倾向性的多种因素,达到提高句子倾向性分析目的是倾向性分析所面临的问题之一。平面话题模型难以描述评论文本中主题与属性之间的关系,造成全局把握某一评论话题的全局情感倾向性困难的局面。能否构建一个合适的评论文本表示模型,用于描述评论文本中话题与子话题之间纵向层次关系及横向关联关系,最终达到描述用户全局情感倾向的目的,是当前面临的一个重要问题。本文针对上述问题,确立研究内容。主要工作如下:(1)研究跨领域情感词自动扩展方法,解决不同领域数据分布不平衡现象。针对倾向性分析中存在语料分布不平衡问题,提出一种跨领域倾向性分析方法。目的在于利用源领域中已标注信息分析目标领域中未登录词的情感倾向,用于未标注领域情感词自动扩展。该方法首先将情感词划分为依赖情感词和独立情感词两类,以此为基础扩展原有倾向性分析的两个假设,构建源领域与目标领域之间的关系,达到情感词自动扩展的目的。整个方法涉及情感词抽取和情感词倾向性定义两个步骤。情感词抽取阶段采用词性信息与改进的点互信息相结的方法计算候选情感词与评价对象之间的依赖强度,获取目标领域情感词集合。构造词与词、词与评价对象、词与文档之间关系,并利用这个关系计算每个情感词倾向强度,最终达到跨领域情感词扩展的目的。(2)研究评价短语倾向性分析方法,为解决情感词倾向性依赖下文依赖问题开辟新的途径。针对情感词倾向性存在上下文依赖性问题,提出一种基于评价对象隐性情感倾向的评价短语倾向性分析方法。该方法将情感词的上下文环境分解为评价对象,并对评价对象的隐性情感加以量化,以此为基础构建评价对象、情感词以及评价短语之间的关系。最后,依据启发式规则构建短语倾向性分析的目标函数,达到短语倾向性分析的目的。实验表明,结合评价对象隐性情感倾向的情形下,评价短语倾向性识别得到了有效的提高。(3)研究否定句倾向性分析方法,以解决否定词否定界限模糊的问题。针对句子倾向性分析中否定词否定界限模糊的问题,分析影响否定句倾向性分析的主要因素以及否定词的否定范围,将否定界限问题转化为否定词位置问题,以此为基础提出一种基于层叠HMM的否定句倾向性分析方法。该方法被划分为三个层次,其中HMM-1和HMM-2用于识别否定句中所包含的评价对象,以此为基础,计算短语的情感倾向。为了量化否定词对句子倾向性的影响,将句子中所包含的否定词作为触发条件修正评价短语的情感倾向,最后依据不同的句式计算句子的全局情感倾向。该方法参加了2012年第四届全国倾向性信息评测,提交的结果在所有提交结果中表现最优。(4)研究评论文本模型构建方法,用于解决平面话题模型关联检测困难的问题,为全局捕捉话题特征倾向奠定基础。针对平面话题模型关联检测困难的问题,本文提出一种融合扩展IB理论的评论文本模型构建方法。该方法将评论文本视为一个层次结构,首先将评论文本划分为一个个独立的语义单元,并将语义单元进一步划分为主题特征和语义单元特征两个部分。其中,主题属性用于同一话题或产品的全局关联,而语义单元属性则用于区分话题或子属性之间的关系。在语义单元划分中,本文将传统的信息瓶颈理论(The In-formation Bottleneck Method,简称IB)依据评论文本特征加以扩展,用于语义单元划分;在相关话题/产品关联检测中,本文采用加权KL的方法用于关联检测。为了验证这一思想的可行性,本文在数据集TDT4上进行测试,结果表明,本文构建的模型能够较准确的捕捉同一话题/产品之间的关联关系。