论文部分内容阅读
随着互联网技术的飞速发展,Web上的网站和网页数量以指数级的速度快速增长。Web上的海量网页包含了各种各样的信息,而这些信息总是描述现实社会中客观存在的事物(即实体)所发生的事情(即事件)。Web上记录着实体动态变化的事件孤立地、离散地、毫无规律地遍及Web的各个角落,这些实体事件的发生发展隐含了事件之间潜在的关联、实体发展变化轨迹(即实体踪迹)及实体发展变化规律(即实体踪迹模式)。从纷繁复杂的Web上发现实体事件间关系并将其有机地组织起来,发现实体踪迹及实体踪迹模式,对于发现实体发展变化规律、预测实体发展趋势有重要意义,特别在市场情报领域中,发现和分析实体踪迹及实体踪迹模式尤为重要。目前与Web实体踪迹相关的研究主要侧重于将实体事件依据时间线索进行链接,这种方式仅适用于用户浏览需求,但是很难胜任面向市场情报为目的的深层次的分析挖掘任务。本文致力于面向市场情报的Web实体踪迹发现研究,目的在于发现事件间潜在的关系、发现实体周期性踪迹(即某个实体周期性发生的行为踪迹)及同类实体相似性踪迹(即同类实体发生的相似性行为踪迹)用以趋势预测和决策支持。面向市场情报的Web实体踪迹发现研究存在以下问题有待解决:1)Web实体踪迹研究需要发现事件间潜在的关系,而这些事件间潜在的关系往往不能通过文本标记和语义分析获得,因此需要提取有效特征来识别这些事件关系;2)Web实体踪迹研究需要发现某些实体的周期性行为踪迹,而这些周期性行为踪迹被埋没在大量的事件和事件关系中难以被发现,因此需要有效的模型定义和有效的模式增长算法;3)Web实体踪迹研究需要发现同类实体的相似性行为踪迹,而同类实体相似性踪迹发现存在需处理事件规模大和大量冗余模式产生的问题,因此需要有效的预处理和有效的模式发现方法。本文面向市场情报,以如何有效地发现事件间潜在关系、发现实体周期性踪迹和同类实体相似性踪迹用以趋势预测和决策支持为目标,针对其中存在的关键问题展开研究,主要贡献概括如下:(1)提出一种基于事件要素关联特征的事件关系识别方法,有效地解决了跨句子、跨段落、跨文档的无标记因果关系和跟随关系的识别,对一因多果和多因一果的因果关系也可以有效的识别。该方法具有较高的准确率和召回率。事件关系,尤其是无标记事件关系,由于其事件间无关系提示词,而仅根据语义的相关性不能对其有效的识别,针对这一问题,本文提出了一种基于事件要素关联特征的事件关系识别方法。该方法主要解决以无标记因果关系为主的无标记事件关系的识别。该方法首先识别事件间的共现关系,在事件共现关系中考虑了事件跨文档共现的情况,为跨文档事件关系的识别提供了基础;接着,基于统计方法,分析共现事件对间对因果关系有贡献的事件要素间的关联特征,并构造事件对的特征向量空间;最后,基于训练数据集,采用机器学习的分类模型对事件关系进行二分类(因果关系和跟随关系),该方法可以有效的解决跨句子、跨段落,甚至是跨文档的无标记因果关系的识别,对一因多果和多因一果的因果关系都可以有效的识别。最后,根据目标需求将有价值事件按照事件关系进行链接,生成事件关系图,为市场情报分析提供坚实的数据基础。另外,事件因果图是事件关系图的一个子图,可以很好地对一因多果和多因一果的因果关系可视化。实验结果表明,该方法对于事件关系识别具有较高的准确率和召回率,有效克服了现有的事件关系识别方法可移植性差、准确率低和不能够解决跨文档事件关系识别的问题。(2)提出一种基于频繁子图挖掘的实体周期性踪迹发现的方法,有效解决了周期性踪迹发现过程中的模式增长速度过慢、模式组合爆炸以及大量冗余模式产生的问题。该方法具有较高的准确率和效率。根据语义特征,周期性踪迹采用图模型,从实体事件关系图中发现周期性踪迹,存在着子图发现的普遍问题:模式增长速度慢、模式组合爆炸以及大量冗余模式的产生等问题。针对这一问题,本文提出一种基于频繁子图挖掘的实体周期性踪迹发现的方法。该方法首先将所有的事件根据其行为(activity)要素的语义相似度进行聚类,每个类中的所有的事件赋予一个相同的标签,并将事件关系图中的所有事件以它们的标签替代;然后,从事件标签图中发现所有的vertice-edge-vertice模式。接着,在所有vertice-edge-vertice模式的基础上,发现所有的Star模式;最后,合并所有的Star模式,直到不能合并为止,合并的结果就是所有的周期性踪迹。其中的Star模式其自身的结构特点使合并算法以Star模式规模增长,使合并算法快速的收敛,并且不产生额外的冗余模式,避免了模式组合爆炸的状况。实验结果表明,该方法具有较高的准确率,有效克服了频繁子图发现一次只增长一个点或一条边的模式增长方式而导致的低效率问题。(3)提出一种基于重要事件的同类实体相似性踪迹发现的方法,有效解决了相似性踪迹发现过程中需处理的事件规模大和大量冗余模式产生的问题。该方法具有较高的准确率和效率。根据实际情况,相似性踪迹采用图序列模型。从同类实体事件关系图集中发现相似性踪迹存在需处理的事件规模大和大量冗余模式产生的问题。针对这一问题,本文提出基于重要事件的同类实体相似性踪迹发现的方法。该方法首先对每个实体的所有事件按照时间顺序排列,然后基于时间窗口分割和实体事件报道频次的变化率来发现重要事件及候选话题,这样每个实体就能获得一个候选话题序列;然后,对所有实体的候选话题序列,再次采用聚类方法,同一类的话题拥有相同的话题标签。接着,采用动态规划方法找到所有的候选话题序列的公共最长候选话题序列;最后,根据实体事件关系图集及支持度的最小阈值,对公共最长候选话题序列中的所有候选话题进行扩展,其结果就是相似性踪迹。该方法通过筛选出重要事件,使处理的事件规模极大的减少。通过采用一个动态规划方法则发现了相似性踪迹的雏形,对没有希望的话题不再扩展,避免了大量冗余模式产生。实验结果表明,该方法具有较高的准确率,有效克服了没有预见性的频繁子图扩展而造成大量冗余模式产生而导致的低效率问题。