基于Web评论信息的倾向性分析关键技术研究

被引量 : 16次 | 上传用户:sansancaicai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络的迅速兴起,网民规模的不断攀升,使得以互联网为代表的新兴媒体已经成为广大群众表达诉求、抨击时弊、建言献策、沟通交流的重要工具,成为群众行使知情权、参与权、表达权和监督权的重要渠道。与此同时,网络用户也由信息的被动接收者转变为信息的生产者,这便造成了用户产生的大量评论信息在互联网上堆积的情形。不仅如此,用户产生评论信息中还蕴含了用户情感态度、政治倾向等信息。挖掘用户产生内容信息所携带的情感信息,分析用户的情感倾向,对商品推荐、舆情发现以及信息预测等均有着重要的意义。迄今为止,研究者在倾向性分析领域做出了大量的研究,推进了倾向性分析研究的进步。由于用户的情感倾向性信息多蕴含在用户产生的文本信息中,而自然语言处理本身便是一项极具挑战性的工作。再加上蕴含在用户产生评论信息中的情感倾向还会依据语境的不同而发生变化,这便使得倾向性分析存在以下几个亟待解决的问题:倾向性分析存在语料分布极度不平衡现象。一些领域的语料容易通过互联网获取,而某些领域的语料属于稀有资源,如何解决语料分布不平衡问题,使得构建的情感词表具有较高的领域可移置性,达到跨领域倾向性分析的目的是当前亟待解决的首要问题。情感词不仅具有领域依赖性,而且具有上下文依赖性,同一个情感词在不同的上下文环境中会表现出不同的情感倾向,导致系统精确度大幅降低。如何解决情感词的上下文依赖问题是提高倾向性分析的关键所在。针对复杂的语言现象,如何捕捉比较词、否定词以及句式等因素对句子倾向性的影响,能否构建一个合理的句子倾向性分析模型,捕捉影响句子倾向性的多种因素,达到提高句子倾向性分析目的是倾向性分析所面临的问题之一。平面话题模型难以描述评论文本中主题与属性之间的关系,造成全局把握某一评论话题的全局情感倾向性困难的局面。能否构建一个合适的评论文本表示模型,用于描述评论文本中话题与子话题之间纵向层次关系及横向关联关系,最终达到描述用户全局情感倾向的目的,是当前面临的一个重要问题。本文针对上述问题,确立研究内容。主要工作如下:(1)研究跨领域情感词自动扩展方法,解决不同领域数据分布不平衡现象。针对倾向性分析中存在语料分布不平衡问题,提出一种跨领域倾向性分析方法。目的在于利用源领域中已标注信息分析目标领域中未登录词的情感倾向,用于未标注领域情感词自动扩展。该方法首先将情感词划分为依赖情感词和独立情感词两类,以此为基础扩展原有倾向性分析的两个假设,构建源领域与目标领域之间的关系,达到情感词自动扩展的目的。整个方法涉及情感词抽取和情感词倾向性定义两个步骤。情感词抽取阶段采用词性信息与改进的点互信息相结的方法计算候选情感词与评价对象之间的依赖强度,获取目标领域情感词集合。构造词与词、词与评价对象、词与文档之间关系,并利用这个关系计算每个情感词倾向强度,最终达到跨领域情感词扩展的目的。(2)研究评价短语倾向性分析方法,为解决情感词倾向性依赖下文依赖问题开辟新的途径。针对情感词倾向性存在上下文依赖性问题,提出一种基于评价对象隐性情感倾向的评价短语倾向性分析方法。该方法将情感词的上下文环境分解为评价对象,并对评价对象的隐性情感加以量化,以此为基础构建评价对象、情感词以及评价短语之间的关系。最后,依据启发式规则构建短语倾向性分析的目标函数,达到短语倾向性分析的目的。实验表明,结合评价对象隐性情感倾向的情形下,评价短语倾向性识别得到了有效的提高。(3)研究否定句倾向性分析方法,以解决否定词否定界限模糊的问题。针对句子倾向性分析中否定词否定界限模糊的问题,分析影响否定句倾向性分析的主要因素以及否定词的否定范围,将否定界限问题转化为否定词位置问题,以此为基础提出一种基于层叠HMM的否定句倾向性分析方法。该方法被划分为三个层次,其中HMM-1和HMM-2用于识别否定句中所包含的评价对象,以此为基础,计算短语的情感倾向。为了量化否定词对句子倾向性的影响,将句子中所包含的否定词作为触发条件修正评价短语的情感倾向,最后依据不同的句式计算句子的全局情感倾向。该方法参加了2012年第四届全国倾向性信息评测,提交的结果在所有提交结果中表现最优。(4)研究评论文本模型构建方法,用于解决平面话题模型关联检测困难的问题,为全局捕捉话题特征倾向奠定基础。针对平面话题模型关联检测困难的问题,本文提出一种融合扩展IB理论的评论文本模型构建方法。该方法将评论文本视为一个层次结构,首先将评论文本划分为一个个独立的语义单元,并将语义单元进一步划分为主题特征和语义单元特征两个部分。其中,主题属性用于同一话题或产品的全局关联,而语义单元属性则用于区分话题或子属性之间的关系。在语义单元划分中,本文将传统的信息瓶颈理论(The In-formation Bottleneck Method,简称IB)依据评论文本特征加以扩展,用于语义单元划分;在相关话题/产品关联检测中,本文采用加权KL的方法用于关联检测。为了验证这一思想的可行性,本文在数据集TDT4上进行测试,结果表明,本文构建的模型能够较准确的捕捉同一话题/产品之间的关联关系。
其他文献
面对金融危机、欧债危机等对经济造成的重大破坏性影响,许多国家试图通过发展新兴产业带领经济走出泥淖,走上一条新的发展之路。美国制定了新能源战略,欧盟将绿色能源、绿色
当今中国,伴随着经济社会的高速发展,以城市群为载体的发展模式成为推进城市化的重要方式。我国各级政府都将城市群的发展作为提升区域经济竞争力、保障城市居民生活质量的重要
高炉鼓风机是炼铁生产中重要的设备之一,其运行状况对高炉的高效稳定生产有着重要的影响。高炉鼓风中的含湿量过高时,会降低风口前理论燃烧温度,增加炉内的热量消耗,导致高炉
全军每年都要投入大量的人力和物力开展弹药常规检测试验,以确定弹药的质量状况,为上级机关对弹药的使用、保管提供可靠的依据。其中,弹药包装的密封性试验是常规检测中最主
随着我国经济体制改革和经济全球化的发展,越来越多国内工程企业加入到国际市场中去,而在国际市场的项目管理中,EPC总承包模式作为一种先进项目管理形式被广泛采用,我国企业
零售行业竞争日趋加剧,零售商为了获得有利的竞争地位,得到更持久稳定的发展,纷纷开始自有品牌的开发。自有品牌在国外的发展较为成熟,而国内自有品牌上处于初级阶段,国内消费的认
南美白对虾作为我国养殖产量最大的虾种,在加工过程中会产生大批的虾头废弃物,其中只有一部分被直接加工成饲料,其余大多被丢弃,很少被高值化利用。对虾虾头富含蛋白质和甲壳素,是
随着中国信息化建设的发展历程,客户对信息化的需求已经从系统建设发展到对服务的需求阶段,IT产品运维服务市场呈现出巨大的发展前景。在国内IT服务市场竞争日益加剧的同时,EMC
陆海统筹发展是海洋开发利用的战略思维,把海洋、陆地作为两个相互渗透而又相对独立的系统,通过整体开发和统一筹划实现海陆系统经济、社会、文化、生态的协调发展提升海陆地区
通过对万科公司(股票代码A000002)公布的2014年及2015年财务数据,主要是万科公司的资产构成、债务构成、财务杠杆及利息费用等情况进行分析。结果表明万科公司的经营状况良好