基于大数据集的动态数据库关联挖掘研究

被引量 : 0次 | 上传用户:wukuiyuxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是通过数据计算发现潜在规律和特征信息的过程。海量数据下的数据挖掘算法不仅要考虑算法的正确性,还应保证计算的可行性、有效性。本文以动态数据库为主要研究对象,研究实现海量数据规模下关联规则的并行挖掘,解决数据相关性挖掘过程中算法效率、公平性和增量更新挖掘等问题。关联规则挖掘是从数据中发现潜在特征的过程,用于描述数据间相互关联特性,经典例子有“啤酒和尿布”的故事。关联规则挖掘算法经历了Apriori类算法、数据采样挖掘类算法、FP-Growth类算法、分布式算法等发展,算法的效率与适用性都取得了较大的进步。分布式算法以分布式存储、并行计算实现分而治之,算法效率与扩展性具有较大优势。然而,当前分布式关联规则挖掘算法尚未形成具备灵活调度、均衡分配的分布式方案。此外,大数据背景下的数据集规模具有持续增量更新的特点,静态数据库下的关联规则挖掘算法在动态数据下性能表现差异较大,适用动态数据库分布式关联规则挖掘方案仍待进一步研究。本文对关联规则挖掘算法展开调研,通过对比分析Apriori、FP-Growth, FUP、 PFP等典型算法的核心思想、适用范围,围绕大数据下的分布式关联规则挖掘算法进行深入研究,提出了具备负载均衡特性的分布式计算与增量更新挖掘设计方案。设计了后缀模式转换的数据分割及均衡任务分组模型,使各计算节点本地拥有计算所依赖的数据,实现不同节点相互独立的并行挖掘方法,保证算法全局的负载均衡特性;提出了基于满FP树的增量更新机制,通过树的合并操作来避免对原始数据集的再次扫描,实现对动态数据的规则提取。基于Hadoop的对比实验数据表明,具备均衡机制的分布式方案HBFP (High Balanced FP-Growth)在大数据并行计算中节点任务分配均匀程度提高,节点间的任务执行时间标准差缩小,算法全局执行时间有效降低12%;增量更新方案IHBFP (Incremental updating High Balanced FP-Growth)利用满FP树的特征减少增量数据引发的再次递归挖掘,将计算任务局限于发生特征变化的分支上,算法执行效率取得稳定提升。
其他文献
本文以秤锤树、毛白杨和香椿为材料,对植物工厂化栽培理论进行了初步研究。首先,以秤锤树的叶片为外植体进行植物组织培养,研究不同取材时间和不同灭菌时间的处理对秤锤树愈
慢性肾脏病起病隐匿,病情复杂,多为逐渐发展而成。吕仁和教授在多年临床实践中,根据中医学对慢性疾病发生发展规律——虚、损、劳、衰的认识,将慢性肾脏疾病分为早、中、晚三
金融风暴过后,我国的经济逐步复苏,金融业也迎来了新的繁荣。证券市场的火爆对整个市场的冲击很大,信托业在此受到了巨大的影响。为了更好应对不断变化的市场,完善公司体制,
提出使用仿射传播聚类方法对图像特征数据进行聚类.通过多维缩放MDS算法从高维特征空间据映射到二维空间的方法将聚类结果可视化。实验证明,该方法简单高效,可视化结果有利于全
广播的本原是什么?有不同的专家学者从不同的层面、不同的视角做了各种各样的解读,在媒体融合、融媒体传播大发展中,广播需不需要继续存在好像也成了一个问题。本文从广播音
在通货膨胀的大环境下,研究我国通货膨胀的的形成原因,不仅有助于政府根据实际情况选择合适的方法抑制或者缓解通货膨胀的压力,而且对我国的经济健康高速发展也起到非常重要
四川甲基卡伟晶岩型矿区是我国规模最大的锂矿聚集区。该矿区位于松潘-甘孜造山带,形成于中生代,具有矿床规模大、种类齐全等特点,是研究稀有金属伟晶岩的理想区域。X03号脉
对姚乃礼教授以肝脾同调治疗胃痛的思路和方法加以分析和总结。姚教授认为胃痛的发生与肝、脾、胃三脏密切相关,而肝郁是致病的重要条件,治疗胃痛应肝脾同调,以疏肝和胃为法,
老年呼吸系统疾病是一组临床常见的疾病,也是造成患者死亡的重要病因。预测到2020年,在全球引起死亡率最高的10种疾病中有慢性阻塞性肺疾病、下呼吸道感染、肺癌、肺结核。这
目的:研究复方中药岩舒注射液能否抑制人白血病HL-60多药耐药细胞增殖及其相关机制。方法:采用人白血病HL-60敏感细胞及其HR-20耐药细胞进行研究。MTT法检测药物对细胞增殖的