论文部分内容阅读
近年来全球范围内各类突发事件频发,给社会和谐稳定、人民幸福带来了影响和危害。结合信息技术、应急管理科学等多学科理论、技术,来挖掘突发事件描述信息,从而开展突发事件案例推理研究,对文本分析、知识发现、应急管理、舆情监控等都具有重要的理论和实践意义。为此本文围绕案例推理的核心过程,具体开展了如下研究工作:(1)突发事件案例表示与信息抽取的研究。首先分析了案例表示与案例推理的关系,结合突发事件自身特点,提出了基于框架和产生式融合的案例表示方法,为突发事件案例推理奠定了坚实的语义基础。通过分析突发事件数据来源,将语言学文体概念融入到信息抽取的规则中,结合具有丰富领域信息的词表,提出了基于文体和词表的突发事件信息抽取方法,完成了数据的结构化,构建了突发事件案例库。在自定义数据集和CEC公开数据集上开展实验,验证了信息抽取方法的可行性和有效性。(2)基于词语语义相似度的案例推理方法研究。本文首先分析了案例检索与案例推理的关系,确定了突发事件属性的检索方案;以突发事件文本属性为研究对象,分别基于大规模语料库、知识库开展了词语语义相似度计算方法的研究,融合字、词、Ngram文本序列等上下文相关信息,以增强Word embedding,在此基础上,基于HowNet和同义词词林词语语义相似度算法,提出了SSW_CCKM(Semantic Similarity of Words Computing by Combining Corpus-based and Knowledge-based Methods)方法;在PKU 500公开数据集上,验证本文方法的有效性。(3)突发事件案例库维护方法的研究。首先分析了案例库维护与案例推理的关系,确定了突发事件案例库维护方案;将社交网络度中心性思想引入Kmeans文本聚类中,提出了DC_Kmeans文本聚类,用于识别噪声案例、特殊案例等,从而实现对源案例的预处理;引入决策分析中效用值概念,来确定每条案例的价值,提出了KUCBM(Case base maintenance based on kmeans text clustering and utility value)的案例维护方法,从而实现了对源案例的维护。通过最终的实际数据模拟,验证了本文提出的KUCBM算法的可行性和有效性。