论文部分内容阅读
微型博客(简称微博)作为一种具有代表性的新型传播媒体,现在已经成为一种最流行的人们表达想法,分享信息,交流意见的网络工具,对社会产生了巨大的影响。事件抽取(Event Extraction)是信息抽取领域的核心研究内容,旨在从含有事件信息的非结构化文本中抽取出用户感兴趣的事件信息,并将其以结构化的形式呈现出来,如什么人,在什么地方,什么时间,做了什么事等。文本可视化的目的是以丰富的图形或图像揭示以文本为载体的信息内容,是信息可视化的重要分支之一。文本可视化可以高度概括并且形象化表示文本信息的核心内容,方便人们快速的理解文本的核心思想。因此,将微博的事件抽取与可视化技术结合起来,在提取出结构化事件的同时,将其形象的展示在可视化空间中,对于直观的理解微博文本中的事件信息,以及事件之间的关系有着重要的价值。本文针对微博事件的抽取和可视化方法进行研究,主要工作有:1.对微博事件的抽取和可视化技术进行了研究,提出了一种基于隐事件抽取与可视化(LEEV)模型的联合学习方法。LEEV是一种新型概率模型,是在隐事件模型(Latent Event Extraction,LEM)的基础上引入位置信息,使事件抽取和可视化的效果都得到提升。本文详细阐述了该模型的系统架构,模型表示和参数估计方法。在分别包含2499条微博和1000条微博的两个数据集上对基于LEEV模型的事件抽取和可视化方法进行实验评估,实验证明,该方法的事件抽取和可视化的效果在两个数据集上都超过了对比方法。2.注意到微博文本的固有结构是嵌入在高维空间中的低秩非线性流形。应用这一特点,在LEEV模型的基础上添加基于流行假设的正则化项,提出了基于LEEV+R模型的微博事件抽取和可视化方法。在与LEEV模型相同的数据集上进行试验评估,结果显示,LEEV+R模型的事件抽取和可视化效果在两个数据集上均好于LEEV模型。本文共五章。第一章介绍研究背景与意义,研究动机以及主要内容。第二章介绍微博的事件抽取相关技术和基于降维的文本可视化相关方法。第三章介绍基于LEEV模型的微博事件抽取和可视化方法及相关实验。第四章介绍基于LEEV+R模型的微博事件抽取和可视化方法及相关实验。第五章是对论文工作的总结以及未来工作的展望。