基于云计算Hadoop平台的数据挖掘研究

被引量 : 11次 | 上传用户:kami121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息数据的飞速滋生,传统数据库系统已经很难满足大数据时代的需求。云计算的横空出世,为海量数据挖掘领域提供了契机。其快速存储能力和超强的计算能力,使得数据挖掘领域进入了一个全新的时代。Hadoop框架是应用最多、发展最好的云计算平台,具有经济、可靠、扩容能力强、并行性好、效率高等诸多优点。其关键技术分布式文件系统HDFS和并行处理MapReduce编程模型,分别实现了海量数据的存储和并行计算等工作。如何将传统数据挖掘技术和算法应用到云计算Hadoop平台中,实现并行化处理,是解决目前海量数据挖掘的关键问题。本文对云计算Hadoop框架、数据挖掘技术以及决策树SPRINT算法进行了深入的研究,在此基础上,分析了大数据挖掘的需求,设计出基于Hadoop平台的数据挖掘系统。在系统算法层,主要对传统数据挖掘SPRINT算法进行了改进,使其能够并行处理大数据集。然后利用HDFS和MapReduce编程模型,实现了改进的SPRINT算法到Hadoop平台的转移。改进后的系统消除了重复计算和不必要的计算,减少了计算量,有效地提高了系统的效率;对计算中的连续属性表和离散属性表执行排序,有效地减少了离散属性的分裂时间;设计了新的数据结构,满足MapReduce编程需要,更好的实现并行化。最后利用MYSQL构建了一些大数据集,对系统的效率进行了测试分析。测试表明,系统在算法改进后大大减少了数据处理的时间,系统效率得以提高。
其他文献
自制了一系列运动黏度基本保持不变、组成有规律连续变化的填充油,首次系统研究了油品组成对充油聚苯乙烯-乙烯/丁烯-苯乙烯(SEBS)体系结构与性能的影响,分析了油品在多相的S
每当谈及重金属音乐,大家都会不约而同地联想到巨大的声响,狂躁的鼓点和愤怒张扬的乐手。随着时代的变迁和生活方式的改变,各种类型的音乐百花齐放般展现在世人眼前,重金属已
以实验室自制聚己二酸乙二醇酯二醇PEA为软段,二苯基甲烷-4,4'-二异氰酸酯(MDI)为硬段,分别采用乙二醇(EG、1,4-丁二醇)、BOD和1,6-己二醇、HG为扩链剂,经预聚体法合成了硬段不同
目的观察尿激酶溶栓治疗急性心肌梗死的临床疗效,总结治疗过程中的护理经验。方法选择我院2008年6月至2010年6月前来我院就诊的急性心肌梗死患者196例,随机分为治疗组与对照组
近年来各省市相继出台“平安校园”的政策措施,推进校园安全建设,学校校园的系统性安全建设工程也相继展开。目前,地方教育部门对于校园安全也越来越重视,而受到学校的招生规
在分析Cognos商业智能基础之上进一步研究便于个性化信息服务定制、专业辅助决策的机动车和驾驶人交通管理信息化商业智能应用平台。提出商业智能应用平台的系统架构及其相关
生物柴油作为一种新兴的生物能源,是目前石化能源的替代品之一。推广使用生物柴油可以缓解当前石油资源短缺的压力,并起到减排的作用。对农业而言,通过推广使用生物柴油可以
中国人数众多,给汽车零部件行业带来了广阔的发展空间,同时,越来越多的中外汽车零部件企业在高利润率的诱惑和吸引下,纷纷将触角延伸至中国市场,纷纷抢占中国市场。他们利用
在ANSYS的基础上对Zhang等提出的一种基于基底变形的测量微机械薄膜杨氏模量和残余应力的微桥实验进行模拟仿真,改变ANSYS中加载的载荷大小得到一系列载荷-挠度数据点,并通过
《文心雕龙》书名是刘勰文学观点的集中体现 ,它强调的是精妙的艺术构思与精美的文学语言的有机结合 ;而《文选》的选文标准“事出于沉思 ,义归乎翰藻” ,则是萧统文学观点的