论文部分内容阅读
互联网技术飞速发展的今天,网络空间所包含的大量文本数据中既蕴含着智慧的结晶,又存在着潜在的风险。在此背景下,基于自然语言处理技术的舆情监控、观点抽取和情绪分析等研究显得愈发重要。目前相关研究重点正从日趋成熟的文本情绪分析向挖掘文本中包含的情绪产生原因深入,也就是从“知其然”向“知其所以然”深入,即本文所研究的文本情绪原因发现。文本情绪原因发现研究不仅依赖于所实施的算法,也受到原因标注语料的限制。目前相关语料库的缺乏影响了该领域研究的深入。因此本文首先设计构建一个规模适中的情绪原因标注语料库,并在此基础上研究情绪原因事件驱动的文本情绪原因发现方法。本文的工作主要包括以下三部分:针对标注语料库缺乏的问题,首先设计并构建基于新闻文本的情绪原因语料库。在对情绪原因表达规律进行观察和分析的基础上,设计了一套完整全面的标注体系。遵循这一体系,从15,687篇新闻文档中人工挑选出2,105个包含情绪原因的实例,并完成情绪原因的标注,最终构建了一个情绪原因标注语料库。应用这一语料库,本文研究事件驱动的文本情绪原因发现方法。在对情绪原因文本的表达特点进行分析和观察的基础上,设计了将引发情绪产生和变化的外界刺激抽象为事件元组结构的方法。进而,设计实现了基于依存句法分析的候选情绪原因事件抽取算法以及基于多项式核支持向量机算法的情绪原因事件识别算法。在本文构建语料库上进行的实验显示,该方法在文本情绪原因识别的F值性能相较于基线方法提升3.34%。针对事件元组结构表达能力有限的不足,研究将情绪原因事件元组进一步转换为事件树结构,实现情绪原因从文本到事件树的有效映射。通过结合树核和多项式核,设计实现更有效的情绪原因发现方法。实验结果显示,相比基线系统,该方法的F值提升10.61%。本文提出的事件驱动的情绪原因发现方法,可以很好地实现对情绪原因文本的抽象和映射,在情绪原因发现实验中达到了目前已知方法中的最优效果。同时,本文所建立的中文情绪原因标注语料库作为开放研究资源,也可推动本领域研究的发展和深入。