微博文本的事件抽取与可视化

来源 :东南大学 | 被引量 : 0次 | 上传用户:fy_laile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微型博客(简称微博)作为一种具有代表性的新型传播媒体,现在已经成为一种最流行的人们表达想法,分享信息,交流意见的网络工具,对社会产生了巨大的影响。事件抽取(Event Extraction)是信息抽取领域的核心研究内容,旨在从含有事件信息的非结构化文本中抽取出用户感兴趣的事件信息,并将其以结构化的形式呈现出来,如什么人,在什么地方,什么时间,做了什么事等。文本可视化的目的是以丰富的图形或图像揭示以文本为载体的信息内容,是信息可视化的重要分支之一。文本可视化可以高度概括并且形象化表示文本信息的核心内容,方便人们快速的理解文本的核心思想。因此,将微博的事件抽取与可视化技术结合起来,在提取出结构化事件的同时,将其形象的展示在可视化空间中,对于直观的理解微博文本中的事件信息,以及事件之间的关系有着重要的价值。本文针对微博事件的抽取和可视化方法进行研究,主要工作有:1.对微博事件的抽取和可视化技术进行了研究,提出了一种基于隐事件抽取与可视化(LEEV)模型的联合学习方法。LEEV是一种新型概率模型,是在隐事件模型(Latent Event Extraction,LEM)的基础上引入位置信息,使事件抽取和可视化的效果都得到提升。本文详细阐述了该模型的系统架构,模型表示和参数估计方法。在分别包含2499条微博和1000条微博的两个数据集上对基于LEEV模型的事件抽取和可视化方法进行实验评估,实验证明,该方法的事件抽取和可视化的效果在两个数据集上都超过了对比方法。2.注意到微博文本的固有结构是嵌入在高维空间中的低秩非线性流形。应用这一特点,在LEEV模型的基础上添加基于流行假设的正则化项,提出了基于LEEV+R模型的微博事件抽取和可视化方法。在与LEEV模型相同的数据集上进行试验评估,结果显示,LEEV+R模型的事件抽取和可视化效果在两个数据集上均好于LEEV模型。本文共五章。第一章介绍研究背景与意义,研究动机以及主要内容。第二章介绍微博的事件抽取相关技术和基于降维的文本可视化相关方法。第三章介绍基于LEEV模型的微博事件抽取和可视化方法及相关实验。第四章介绍基于LEEV+R模型的微博事件抽取和可视化方法及相关实验。第五章是对论文工作的总结以及未来工作的展望。
其他文献
目的研究抑制素(INH)在体条件下能否通过大鼠的血脑屏障及在垂体或下丘脑的分布。方法采用颈静脉灌流和放射自显影技术,将20只SD大鼠分为4组,每组5只,第1~3组(实验组)颈静脉注射^125
目的了解云南省昆明市中低收入女性性工作者(FSWs)无保护商业性行为状况及影响因素,为云南省该人群艾滋病(AIDS)综合防治提供建议。方法利用自制问卷对昆明市4个城区561名中
棕榈蓟马(ThripspalmiKarny)成虫与若虫在茄子植株上、中、下不同叶位及一张叶片的叶背、叶面上的种群数量动态分布是不同的。成虫与若虫种群数量,在植株上、中、下不同叶位上的平均分布比例分别
本文主要通过工程实例,论述在高大连拱渡槽墩台及基础设计的几点心得体会,在保证结构安全的前提下,对结构设计进行优化,节省工程投资。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
单位行贿罪与行贿罪的区分是司法实践中的一个难点,文章首先从法律规定和理论上对单位行贿罪的特征进行了梳理,在此基础上对"单位"的范围和单位意志的认定进行了分析,最后对