论文部分内容阅读
现实世界中的一个事件序列可能包括原因、结果和一些值得注意的事件。通常,最根本的原因是隐藏的,或在重要事件中是未知的。传统的信息处理方法通常是通过对频繁出现事件的分析实现未来可能性的预测。但是,在这些信息中除频繁事件之外,还包含着一些极少出现而又具有重要作用的事件,这些事件对未来同样具有重要的影响作用,而传统方法却无法发现这些重要事件。机会发现为实现获取观测结果中稀少的、重要事件提供了切实可行的理论和方法。文本是目前一种重要的信息承载方式。本文以文档数据为研究对象,基于聚类技术对文本机会发现的若干关键问题进行研究。本文通过对机会发现现有理论和技术方法的研究,首先提出了文本机会的定义,并进一步建立了基于聚类的文本机会发现过程模型。明确了文本机会发现过程是一个在人的经验指导下的计算机自动进行聚类的人机交互的双螺旋过程。其次,分析了现有的经典机会发现算法KeyGraph的优缺点,针对KeyGraph算法计算复杂的缺点,提出了一种多遍扫描KeyGraph执行模型,提出利用矩阵分解实现KeyGraph的具体计算,对KeyGraph的计算方法改进。有效地提高了算法的执行效率,减少计算数据量,并降低了时间空间复杂度。第三,文本数量的急剧增加使得现有机会发现算法难以快速、有效地实现机会的提取。为解决此问题,本文在现有研究基础上,通过对目前典型机会发现算法的预处理过程以及算法自身的细致分析,首先提出了既能降低算法复杂性,又能够保留数据语义信息的文本机会发现预处理算法,实现了事件的一致化描述;其次,提出基于进化免疫网络的文本机会发现算法,利用进化免疫网络压缩数据规模的优点,解决了大规模文本数据机会发现所带来的问题。该提取算法与预处理算法增加了机会事件提取的准确性和有效性,有效地提高了算法的执行效率,降低了系统的存储开销。最后,提出了一个基于免疫的多agent文本机会发现系统框架,并基于动态免疫网络建立了系统的响应模型。本文以科技文献应用为背景,发现样本数据集中的文本机会,使读者能够快速理解文章结构,从而验证了文本机会发现技术的优势。