【摘 要】
:
近年来,随着Web技术的不断发展,怎样从Web产生的海量数据中发现隐含的规律性内容,充分利用有用的数据成了现今研究的热点。而Internet上信息量的巨大性,信息内容结构的复杂性
论文部分内容阅读
近年来,随着Web技术的不断发展,怎样从Web产生的海量数据中发现隐含的规律性内容,充分利用有用的数据成了现今研究的热点。而Internet上信息量的巨大性,信息内容结构的复杂性,以及没有特定的模型描述数据,使得处理这些信息具有很多困难。为了解决这个矛盾,半结构化数据模型的建立和Web数据挖掘成为解决这个问题的有效手段。再者,频繁模式挖掘是数据挖掘领域的一个基本问题,其方法被广泛应用于许多数据挖掘任务中。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。本文介绍了数据挖掘、Web数据挖掘、XML的相关概念和研究现状。分析了半结构化数据的特点以及目前主要的半结构数据模型。通过半结构化数据模型与XML数据的对比,发现它们之间有些相似性,但是XML的提出最初是作为文档标识语言,而不是作为一种数据模型。所以,根据XML数据内容自身的特性和频繁模式挖掘的的基本要求,给出了一种基于XML的树型对象模型ATE,目的是使用该数据模型来进行数据挖掘。在ATE半结构化数据模型的基础上,给出了BATEMINER算法来挖掘XML数据中的频繁模式。由于ATE模型在一定程度上简化了XML中的数据量,减少了存储空间,这也使算法在开发过程上减少了大量的步骤,因此降低了算法在挖掘过程中的开销,从而提高了算法的效率。
其他文献
随着Web服务应用的不断增长,当一个客户面对越来越多的Web服务提供者时,如何发现和选择合适的Web服务以满足应用需求,是Web服务技术发展和应用成败的关键问题。工业界已经成
个性化推荐系统是根据用户历史行为记录以及用户和项目的特点,推荐适合用户的项目。随着用户和项目数量的快速增长,信息过载问题突出,用户-项目评分矩阵数据稀疏情况日趋严峻,导
随着国家信息化建设步伐的快速推进,取代国家党政机关传统工作模式的电子政务建设正在迅速崛起,为了迎接党政机关办公信息化面对的机遇和挑战,各国党政部门把实现电子公文和信息
当前,在视频检测与跟踪领域的应用很多,如超市、银行都能进行全天录象监控,但不能对图像自动的检测与跟踪,发现异常现象不能进行报警。因此,本论文主要研究应用于视频图像自
多车场车辆弧路径问题(MDARP:Multiple Depot Arc Routing Problem)与我们熟悉的车辆路径问题(VRP)的最大区别就在于:VRP中的需要进行服务的是一系列点,而MDARP中需要进行服
随着我国交通运输事业快速发展,道路运输事故也呈上升趋势,道路运输安全问题已经成为社会关注的热点。由于危化品引发重、特大事故和环境污染事件,给人民群众生命财产安全造成严
随着互联网上文档数量的快速增长,在Web搜索的研究方面我们面临着许多新的挑战。搜索引擎上大多数的查询是短小且意义不明确的,即使输入相同查询词的用户也可能有完全不同的
随着互联网技术的迅速发展和普及,人们的学习和工作越来越依赖于网络,人们希望通过互联网来获得各种信息资源,方便自己的学习生活和工作。但是随着信息的快速膨胀,网络用户的
随着电子政务、电子商务和计算机技术的快速发展,信息传播及扩散速度得到了极大提升。计算机作为信息加工、传递、保存的主要工具,在现代生活中越来越重要,而信息安全问题也越来
安全是轨道交通永恒的主题,尤其是在轨道交通事业集中建设和高速发展的全盛时期,安全问题更是全社会关注的焦点。轨道交通列车的正常服役是保障轨道交通系统安全高效运营的必要