论文部分内容阅读
近些年来,以新闻报道、博客信息、论坛热帖为代表的舆情文本出现了井喷式的发展。面对这些规模海量、增量快速、分布松散、关联稀疏的舆情文本,用户希望能够从其中发现事件的核心语义信息,以帮助他们及时全面地了解事件发展与演化的进程;同时,面对实时发生、动态演化的事件语义信息,用户也希望能够从中发现其所关心的事件知识,以获得个性化的事件知识服务。本文面向舆情文本处理的具体需求,提出事件语义聚集融合与激活扩散方法及其理论,并对相关应用展开研究。具体内容包括:1.以关联语义链网络为基础,本文提出事件语义聚集融合方法,包括:首先,通过事件语义社区发现方法,从舆情文本中进行事件语义的聚集;然后,通过文本映射至事件语义社区以及事件语义社区重构,实现对聚集事件语义的融合,丰富聚集的事件语义。最终,通过关联语义链网络的分裂迭代,不断对事件语义进行聚集和融合,以发现事件语义,帮助用户了解实时动态的事件语义信息。2.通过模拟人类联想记忆激活扩散模型的语义提取过程,本文提出人类联想记忆的语义激活扩散过程,对用户需求相关语义进行扩展。在此基础上,本文提出事件语义激活扩散方法,针对用户事件语义需求,通过语义激活扩散过程,发现事件骨干词汇、事件知识流和事件语义社区三种粒度事件知识,提供个性化且语义丰富的事件知识服务。3.本文将事件语义聚集融合方法应用在事件发现中,提出事件发现算法。首先,提取舆情文本流中文本的语义特征;然后,从中发现已有事件的后续报道,进行已有事件的跟踪;进而,依据事件语义聚集融合方法发现新发生事件。基于六个事件数据集和五种事件发现评价指标,进行事件发现准确率实验和对比实验,以及在线的事件发现场景下的准确率实验和对比实验,并进行性能分析,验证我们提出的事件发现算法的准确性和有效性。4.本文将事件语义激活扩散方法应用在事件知识推荐中,提出事件知识推荐算法。针对用户知识需求,通过事件语义激活扩散方法,向用户推荐多粒度事件知识,并提取相关文本作为事件知识背景,帮助用户加深对事件知识的理解;同时,感知用户兴趣变化,对用户兴趣偏好进行增强和抑制,使得后续推荐更加符合用户个性化需求。基于六个事件数据集和四种推荐评价指标,进行事件知识推荐对比实验、事件知识交互推荐实验,并对事件知识推荐案例和算法性能进行分析,验证事件知识推荐算法的准确性和有效性。本文的研究内容为面向文本的事件语义研究及其应用提供了理论支持和具体方法,可应用于面向文本的事件语义组织和表示、事件的语义标注、事件检测与跟踪、事件语义搜索、事件知识提取,事件语义推荐等方面,在一定程度上解决Web事件信息爆炸而知识匮乏的问题。