面向市场情报的Web实体踪迹发现研究

被引量 : 0次 | 上传用户:SB502
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,Web上的网站和网页数量以指数级的速度快速增长。Web上的海量网页包含了各种各样的信息,而这些信息总是描述现实社会中客观存在的事物(即实体)所发生的事情(即事件)。Web上记录着实体动态变化的事件孤立地、离散地、毫无规律地遍及Web的各个角落,这些实体事件的发生发展隐含了事件之间潜在的关联、实体发展变化轨迹(即实体踪迹)及实体发展变化规律(即实体踪迹模式)。从纷繁复杂的Web上发现实体事件间关系并将其有机地组织起来,发现实体踪迹及实体踪迹模式,对于发现实体发展变化规律、预测实体发展趋势有重要意义,特别在市场情报领域中,发现和分析实体踪迹及实体踪迹模式尤为重要。目前与Web实体踪迹相关的研究主要侧重于将实体事件依据时间线索进行链接,这种方式仅适用于用户浏览需求,但是很难胜任面向市场情报为目的的深层次的分析挖掘任务。本文致力于面向市场情报的Web实体踪迹发现研究,目的在于发现事件间潜在的关系、发现实体周期性踪迹(即某个实体周期性发生的行为踪迹)及同类实体相似性踪迹(即同类实体发生的相似性行为踪迹)用以趋势预测和决策支持。面向市场情报的Web实体踪迹发现研究存在以下问题有待解决:1)Web实体踪迹研究需要发现事件间潜在的关系,而这些事件间潜在的关系往往不能通过文本标记和语义分析获得,因此需要提取有效特征来识别这些事件关系;2)Web实体踪迹研究需要发现某些实体的周期性行为踪迹,而这些周期性行为踪迹被埋没在大量的事件和事件关系中难以被发现,因此需要有效的模型定义和有效的模式增长算法;3)Web实体踪迹研究需要发现同类实体的相似性行为踪迹,而同类实体相似性踪迹发现存在需处理事件规模大和大量冗余模式产生的问题,因此需要有效的预处理和有效的模式发现方法。本文面向市场情报,以如何有效地发现事件间潜在关系、发现实体周期性踪迹和同类实体相似性踪迹用以趋势预测和决策支持为目标,针对其中存在的关键问题展开研究,主要贡献概括如下:(1)提出一种基于事件要素关联特征的事件关系识别方法,有效地解决了跨句子、跨段落、跨文档的无标记因果关系和跟随关系的识别,对一因多果和多因一果的因果关系也可以有效的识别。该方法具有较高的准确率和召回率。事件关系,尤其是无标记事件关系,由于其事件间无关系提示词,而仅根据语义的相关性不能对其有效的识别,针对这一问题,本文提出了一种基于事件要素关联特征的事件关系识别方法。该方法主要解决以无标记因果关系为主的无标记事件关系的识别。该方法首先识别事件间的共现关系,在事件共现关系中考虑了事件跨文档共现的情况,为跨文档事件关系的识别提供了基础;接着,基于统计方法,分析共现事件对间对因果关系有贡献的事件要素间的关联特征,并构造事件对的特征向量空间;最后,基于训练数据集,采用机器学习的分类模型对事件关系进行二分类(因果关系和跟随关系),该方法可以有效的解决跨句子、跨段落,甚至是跨文档的无标记因果关系的识别,对一因多果和多因一果的因果关系都可以有效的识别。最后,根据目标需求将有价值事件按照事件关系进行链接,生成事件关系图,为市场情报分析提供坚实的数据基础。另外,事件因果图是事件关系图的一个子图,可以很好地对一因多果和多因一果的因果关系可视化。实验结果表明,该方法对于事件关系识别具有较高的准确率和召回率,有效克服了现有的事件关系识别方法可移植性差、准确率低和不能够解决跨文档事件关系识别的问题。(2)提出一种基于频繁子图挖掘的实体周期性踪迹发现的方法,有效解决了周期性踪迹发现过程中的模式增长速度过慢、模式组合爆炸以及大量冗余模式产生的问题。该方法具有较高的准确率和效率。根据语义特征,周期性踪迹采用图模型,从实体事件关系图中发现周期性踪迹,存在着子图发现的普遍问题:模式增长速度慢、模式组合爆炸以及大量冗余模式的产生等问题。针对这一问题,本文提出一种基于频繁子图挖掘的实体周期性踪迹发现的方法。该方法首先将所有的事件根据其行为(activity)要素的语义相似度进行聚类,每个类中的所有的事件赋予一个相同的标签,并将事件关系图中的所有事件以它们的标签替代;然后,从事件标签图中发现所有的vertice-edge-vertice模式。接着,在所有vertice-edge-vertice模式的基础上,发现所有的Star模式;最后,合并所有的Star模式,直到不能合并为止,合并的结果就是所有的周期性踪迹。其中的Star模式其自身的结构特点使合并算法以Star模式规模增长,使合并算法快速的收敛,并且不产生额外的冗余模式,避免了模式组合爆炸的状况。实验结果表明,该方法具有较高的准确率,有效克服了频繁子图发现一次只增长一个点或一条边的模式增长方式而导致的低效率问题。(3)提出一种基于重要事件的同类实体相似性踪迹发现的方法,有效解决了相似性踪迹发现过程中需处理的事件规模大和大量冗余模式产生的问题。该方法具有较高的准确率和效率。根据实际情况,相似性踪迹采用图序列模型。从同类实体事件关系图集中发现相似性踪迹存在需处理的事件规模大和大量冗余模式产生的问题。针对这一问题,本文提出基于重要事件的同类实体相似性踪迹发现的方法。该方法首先对每个实体的所有事件按照时间顺序排列,然后基于时间窗口分割和实体事件报道频次的变化率来发现重要事件及候选话题,这样每个实体就能获得一个候选话题序列;然后,对所有实体的候选话题序列,再次采用聚类方法,同一类的话题拥有相同的话题标签。接着,采用动态规划方法找到所有的候选话题序列的公共最长候选话题序列;最后,根据实体事件关系图集及支持度的最小阈值,对公共最长候选话题序列中的所有候选话题进行扩展,其结果就是相似性踪迹。该方法通过筛选出重要事件,使处理的事件规模极大的减少。通过采用一个动态规划方法则发现了相似性踪迹的雏形,对没有希望的话题不再扩展,避免了大量冗余模式产生。实验结果表明,该方法具有较高的准确率,有效克服了没有预见性的频繁子图扩展而造成大量冗余模式产生而导致的低效率问题。
其他文献
针对国内科技论文英文摘要这一应用文体在撰写中产生的错误现象 ,本文仅对《数据采集与处理》英文摘要作出例析 ,并试图探讨撰写规范。基于常规英文写作知识 ,从美国工程索引
不论在历史上还是在现实生活中,社会主流价值观均视婚外情为百害而无一利的东西。然而,如此观念并非金科玉律。事实上,婚外情触及当事人、配偶、家庭其他成员与社会等方方面
"成功意识"是人类的共性,成才—成事—成业—成名—成功是每个进取者的人生愿望;幻想获取超凡能力而出人头地则是底层百姓的成功意识。这就是贯穿于由民间传说累积而成的《西
巴黎释意学派口译理论是迄今为止国际口译界最具影响力的理论体系。本文经梳理文献发现,界内针对该理论所做的研究呈现若干特点和趋势,如:充分肯定其历史地位,同时质疑和批评
考虑到薄板冲裁板料厚度的特殊性,运用Deform-2D软件,构建了料厚为0.1 mm的薄板有限元模型,通过模拟薄板切断面的形成过程,分析了不同模具间隙下冲裁件的断面质量及温度变化,
在社会转型期 ,我国社区体育服务尚缺乏稳定成熟的理论体系 ,实践中也难以形成稳定的制度化的格局。对社区体育服务的概念、政府行为与社会行为的关系、福利性与经营性的关系
文章在系统梳理伊斯兰传统饮食习俗的基础上,结合目前实际对国内外典型的清真食品法规和标准进行了细致的解析。通过比较借鉴,探讨我国如何建立健全清真食品法规与标准体系,
威廉·福克纳以自己独特文学语言体现的生态思想遍布于他的作品,尤其是《八月之光》和《去吧,摩西》建构了从1851年到1940年八十余年人类与自然环境交互的历史空间,集中而鲜
<正>一、锂电市场正处黄金阶段1.市场规模飞速扩大锂离子电池属于二次电池,二次电池顾名思义就是可以重复使用的电池。目前主要的二次电池产品除了锂离子电池之外,还有铅酸电
为探索低影响开发雨水系统在城市开发建设实践中的综合利用情况,本文以美国明尼苏达大学体育馆工程为例,介绍了低影响开发技术措施在该工程中的具体应用,探讨低影响开发目标