事件驱动的文本情绪原因发现研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:darkak
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术飞速发展的今天,网络空间所包含的大量文本数据中既蕴含着智慧的结晶,又存在着潜在的风险。在此背景下,基于自然语言处理技术的舆情监控、观点抽取和情绪分析等研究显得愈发重要。目前相关研究重点正从日趋成熟的文本情绪分析向挖掘文本中包含的情绪产生原因深入,也就是从“知其然”向“知其所以然”深入,即本文所研究的文本情绪原因发现。文本情绪原因发现研究不仅依赖于所实施的算法,也受到原因标注语料的限制。目前相关语料库的缺乏影响了该领域研究的深入。因此本文首先设计构建一个规模适中的情绪原因标注语料库,并在此基础上研究情绪原因事件驱动的文本情绪原因发现方法。本文的工作主要包括以下三部分:针对标注语料库缺乏的问题,首先设计并构建基于新闻文本的情绪原因语料库。在对情绪原因表达规律进行观察和分析的基础上,设计了一套完整全面的标注体系。遵循这一体系,从15,687篇新闻文档中人工挑选出2,105个包含情绪原因的实例,并完成情绪原因的标注,最终构建了一个情绪原因标注语料库。应用这一语料库,本文研究事件驱动的文本情绪原因发现方法。在对情绪原因文本的表达特点进行分析和观察的基础上,设计了将引发情绪产生和变化的外界刺激抽象为事件元组结构的方法。进而,设计实现了基于依存句法分析的候选情绪原因事件抽取算法以及基于多项式核支持向量机算法的情绪原因事件识别算法。在本文构建语料库上进行的实验显示,该方法在文本情绪原因识别的F值性能相较于基线方法提升3.34%。针对事件元组结构表达能力有限的不足,研究将情绪原因事件元组进一步转换为事件树结构,实现情绪原因从文本到事件树的有效映射。通过结合树核和多项式核,设计实现更有效的情绪原因发现方法。实验结果显示,相比基线系统,该方法的F值提升10.61%。本文提出的事件驱动的情绪原因发现方法,可以很好地实现对情绪原因文本的抽象和映射,在情绪原因发现实验中达到了目前已知方法中的最优效果。同时,本文所建立的中文情绪原因标注语料库作为开放研究资源,也可推动本领域研究的发展和深入。
其他文献
随着Internet的不断发展,面向服务计算(Service-Oriented Computing, SOC)成为了软件领域最热门的研究内容之一,而Web服务标准与技术的日趋成熟,使得Web服务成为万维网上的一
随着硬件电路的复杂化,高层次综合在整个设计过程中起着非常关键的作用。对于数字信号处理应用程序,利用最少的资源实现高性能已经成为一个非常严峻的问题。可寻址的寄存器数量
作为互联网未来的一个发展方向,语义Web的目标是让Web上的信息具有计算机可以处理的语义,从而真正的实现智能网络。本体作为一种领域知识概念化的方法,是实现语义Web的关键技术
生物信息学是一门计算机科学和生物学的交叉学科,其宗旨是利用计算机知识解决生物问题。近年来随着生物测序技术研究不断深入,DNA序列以及蛋白质序列的数据开始呈爆炸性增长。
本文在对复合应用程序库(CAL)软件体系架构的结构和功能分析的基础上,研究了CAL的模块化(Modularity)等特性,并设计和实现了太阳能电池板工厂自动化系统软件。本文首先介绍了工
伴随着互联网在人们日常生活中的普及以及电子商务的应用,安全和隐私已成为广大网民关注的热点话题。传统的加密技术能够保护网络通信内容的安全,但是并不能抵御流量分析等攻
本文提出一种基于数据流架构的表面等离子体共振仪软件开发模式。表面等离子共振仪的开发属于虚拟仪器的开发范畴。虚拟仪器是90年代以来随着计算机技术的进步而逐渐发展起来
本设计项目基于当前采场煤岩应力监测系统的缺点,从而提出了一种更为理想的采场煤岩应力监测的方法。该方法改进了应力采集所用到的传感器的结构构造设计,使其由单应力轴变为
为进一步加快儿童语音产品的市场化,设计制作适合儿童认知和学习的语音内容,面向互联网的知识汇聚技术,实现基于知识驱动的儿童益智型语音系统,设计针对儿童的基于语音交互进
随着当今社会的发展,大量的无线音频出现并逐渐发展,分布式音频编码应运而生。在分布式音频编码系统中,解码端生成的边信息Y与编码端的音频源X构成了一个虚拟依赖信道。由于时空