【摘 要】
:
为了解决数据挖掘在大数据中存在的问题,文中对大数据下的数据挖掘引擎进行了研究,以Spark作为核心引擎,并在Spark的内存计算算子的基础上,实现了多个传统数据挖掘算法的并行
【机 构】
:
陕西广播电视大学,西安外事学院信息与网络学院
【基金项目】
:
陕西省教育厅科研项目(16JK2176);陕西工商职业学院2015年度教学改革研究项目(GJ1510)
论文部分内容阅读
为了解决数据挖掘在大数据中存在的问题,文中对大数据下的数据挖掘引擎进行了研究,以Spark作为核心引擎,并在Spark的内存计算算子的基础上,实现了多个传统数据挖掘算法的并行计算,使得传统的数据挖掘算法能在集群环境中并行运行,从而在大数据中得到较好的应用.然后通过系统分层方法,将数据挖掘系统进行分层设计,实现了一个完整的大数据挖掘平台.实验表明,基于Spark实现的Apriori算法跟PageRank算法的并行计算能有效减少执行时间,在大数据挖掘上具有较好的应用.
其他文献
介绍了超声波CT的原理、反演算法、测线布置以及网格划分,利用所编制的超声波CT程序对某工程桩的一段进行层析成像,给出了测区混凝土超声波CT成像图—等值线和色谱图,据此确
<正> 省直机关是省委、省政府的工作机关,是省委、省政府决策的组织实施者和执行者。加强省直机关作风建设,造就一支政治坚定、作风过硬、素质优良的干部队伍,对于确保省委、
在新型药物制剂中,聚合物胶束是研究比较热门的一种剂型。本文利用自主研发的壳聚糖硬脂酸聚合物,制备载大黄素(emodin, EMO)纳米胶束。达到改善EMO水溶性和提高EMO抗肿瘤活
以正硅酸乙酯(TEOS)为无机前驱体,γ-甲基丙烯酰氧丙基三甲氧基硅烷(KH-570)为偶联剂,HCl为催化剂,采用溶胶-凝胶(Sol-Gel)法制得了硅溶胶,并以此硅溶胶对自制的紫外光固化环
为了分析测量退役反应堆堆材料中的14C活度,需要克服材料中14C制样的难点,基于智能化自动控制原理,研制一套14C制样系统。系统主要由缓冲器、解析室、催化床、吸附床和吸收床
乙醇作为基础原料之一在社会的很多领域都有着广泛的应用,从苦荞麦提取黄酮的实验中产生了大量的乙醇废液,现拟回收该废液中的乙醇。实验采用普通精馏与共沸精馏相结合的方法
将聚类分析运用到中国各地区居民消费价格指数的分析中,利用SAS软件对2009年各地区居民消费价格分类指数的指标体系和原始数据进行聚类分析,得到各地区的分类情况,为地区宏观
<正>鄂价法规[2010]48号各市、州、省直管市及神农架林区物价局:《湖北省价格行政处罚自由裁量权指导规则》(试行)和《湖北省价格行政处罚自由裁量权执行标准》(试行)已经省
目的讨论普外科肿瘤术后化疗病人的静脉输液工具选择方法,更好的保护化疗病人的血管及保证化疗病人疗程的完成。方法选择2013年73例肿瘤术后化疗病人选择不同静脉输液工具后
精对苯二甲酸(PTA)是生产聚酯的重要化工原料,PTA生产过程主要分两部分,首先将对二甲苯(PX)通过液相催化氧化制得粗对苯二甲酸(CTA),再将CTA加氢精制得到PTA。CTA加氢精制生