连续序列模式并行挖掘研究

来源 :湖北大学 | 被引量 : 0次 | 上传用户:xxxxssss11112222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着整个社会的信息化程度的不断提高,信息在现代人的日常生活中扮演着愈发重要的角色。连续序列模式挖掘算法可从目标序列中发现其连续频繁序列模式。然而,适用于商业零售、网络通信、金融证券、气象分析等领域的传统序列模式挖掘算法允许挖掘出的频繁项在其原始序列里是跳跃、非连续的,对此,本文中提出的Continuous-PrefixSpan串行算法[13]修改了 PrefixSpan算法中关于子序列、前缀、后缀、投影的定义。只有当待投影序列的第一个元素和前缀的最后一个元素相同时才会被投影数据库选中,从而保证挖掘出的都是首尾相接的连续序列。社会信息化程度大幅提高的同时也带来了海量数据,像Oracle、SQLserver这样的关系型数据库在面对动辄TB,甚至达到PB级的大数据集时就力不从心了。于此同时,序列挖掘算法一般需要多次遍历原始数据库,这对于注重响应时间而非吞吐量的关系数据库而言是一个灾难。基于以上情况,本文提出了一种基于Hadoop平台的并行数据挖掘和存储方案。Hadoop作为一个开源且上手开发简单的并行软件平台。其核心Map/Reduce并行计算模型可让多台计算机同时参与计算,大大减少了处理时间。其并行文件系统HDFS利用集群的每一台数据节点的存储空间,交叉复制、存储,从而解决了面对海量数据时存储空间上的瓶颈,也使数据安全性得到了大幅度增加。本文重点阐述了 Continuous-PrefixSpan算法在Hadoop平台上的实现,通过相连的两次Map/Reduce操作实现了对序列数据库的并行挖掘。在此基础上,本文还引入了 Hive组件,实现了对海量原始数据的并行预处理,从而使整个挖掘过程并行化。传统串行序列模式挖掘算法在Hadoop平台上的成功实施具有很重要的意义。能够充分利用每一个数据节点的存储和计算能力,可处理PB级数据,高效却又节约成本,因此具有很高的现实意义与应用价值。
其他文献
超级电容器是一种新型的能量储存装置,可以快速地充放电,但是与电池相比,其能量储存能力通常相对较低。将具有定制形貌和性能的纳米材料应用于超级电容器,将会在其固有的高功
在管理系统的研发过程中,开发人员常常会面对重复性的模块开发设计和代码编写,这样不仅造成很多资源的浪费和开发时间的延长,也增加了企业的开发成本,应用程序在维护性、扩展
随着税务系统中的信息化程度越来越高,仅仅只依靠税务系统内部的生产数据,已经无法满足工作人员对税务数据深入分析与利用的需要。因此引入并利用好工商、质监、能源等第三方
当前我国进入经济发展的快车道,社会转型加速,民间纠纷数量急剧上升,如何有效且快速地消解社会矛盾纠纷、实现社会“善治”成为众多学者所关注的热点。文章以治安调解这一“公权力”与“私权利”交叉结合的行政性活动作为研究对象,透视治安实践中各方当事人与基层警察之间的关系和博弈,力求为基层的治安调解实践提供积极有益的理论和策略支持。同时,本文关注到一旦“公权力”介入到私人意思自治的领域内,如果缺乏相关的制度性
近年来,纳米材料因其独特的特性而备受关注,而传统的制备方法如水热法、化学气相沉淀法、溶胶-凝胶法、电化学法等大多具有污染严重,设备成本昂贵,工艺复杂等缺点。等离子体
黄连素是一种广泛应用的抗菌药物,具有很强的抗氧化降解性能,可以干扰细菌生长繁殖,同时也是制药废水中的一种有机物质。研究表明,黄连素物质结构稳定、可生化性差且毒性强,使得一般水处理方法很难得以应用,因此需要探寻一种高效的去除方法。本研究设计了高效的 TiO2PECO(Photoelectrocatalytic Oxidation,PECO)和 E-Fenton(Electrolytic-Fenton
近些年,随着商业银行及政府部门对于金融卡需求的改变,金融卡制造业向着个性化、盈利性强、多功能方向设计和生产金融卡。金融卡的生产技术工艺越来越复杂,且成本亦越来越高
纳米压印是一种高效、低耗的复制加工方法,在微机电系统领域中具有很高的应用范围。相比传统的工艺而言,纳米压印复制方法在材料、结构、集成度方面有很大的进步。而滚动热压
由于现代工业的高速发展,人们对板带材的质量要求也在不断的提高,面板带材精度的最重要指标之一就是厚度,因此对板带材厚度进行深入的研究对现代工业的发展是非常重要的。本
随着云计算和物联网技术的发展,传感器和微处理器无处不在,人们已经身处于大数据时代,数据规模呈指数级增长,复杂性也越来越高。如何有效地管理海量数据,提高海量数据的查询