大数据挖掘中的并行算法研究及应用

被引量 : 20次 | 上传用户:dai_dx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,信息已经出现爆炸式的增长,如何从海量数据中挖掘出有效的信息,是我们面临的难题。传统的数据挖掘算法在面对大数据的时候,就显得无能为力。利用集群并行计算的能力,在多台机器上同时处理数据,这样处理数据的效率将大大提高。Hadoop、Spark是Apache推出的分布式处理框架,主要用来作大数据的存储和分布式计算。HDFS具备高吞吐率、高容错的文件读写能力;Spark、MapReduce提供了并行编程模型,用户只需调用相关的API即可完成分布式处理程序。这些开源的框架为大数据的处理提供了有利的条件。本文结合现阶段比较热门的分布式处理框架hadoop、Spark等,研究数据挖掘算法的并行化,并对算法进行并行化的改进。主要工作有以下几个方面:(1)协同过滤算法的并行化改进:现有的基于共现矩阵的并行协同过滤算法,当项目较多时,在构建共现矩阵以及计算矩阵相乘的过程中将会消耗大量的时间,并且忽略了邻居用户的作用,在一定程度上影响推荐的精度。针对这一问题,本文提出了改进的并行协同过滤算法(ACF),并在Spark上作具体实现。经过实验表明,本文改进的并行协同过滤算法比基于共现矩阵的并行算法具有更好的运行效率和更高的推荐精度。(2)关联规则FP_Growth算法的并行化改进:现有的并行PFP_Growth算法,在FList分组的步骤中,没有考虑分组中负载均衡的问题。针对这一点,本文在PFP_Growth算法的基础之上,提出了基于二分策略分组的负载均衡改进(APFP_Growth)。经过实验表明,改进的APFP_Growth算法具有很好的可扩展性,并且比PFP_Growth算法具有更好的负载均衡效果。(3)设计并实现一个大数据挖掘核心分析平台,能够对大规模数据集进行挖掘分析。该平台提供聚类、推荐、关联规则等功能模块,底层封装了基于hadoop、Spark实现的数据挖掘的算法,上层提供灵活的、可配置的输入参数和输入数据,用户可以根据该平台,快速完成针对大数据集的挖掘分析工作。
其他文献
会员制是现代企业的一个重要的营销策略。许多企业利用会员制来实现客户关系管理,试图抵御来自于外部不利因素的威胁。企业利用电子会员制进行会员管理以及制定战略规划,但由
村镇银行作为一种新型农村金融机构,其设立给农村金融市场注入了活力,在解决城乡金融发展不平衡、支持社会主义新农村建设方面发挥了一定作用。但是作为新生事物,村镇银行在
为对福建省经营性高危体育项目的风险管理现状进行了解,应用文献资料、访谈、实地走访观察、问卷调查、逻辑分析、数理统计等方法对游泳、攀岩、潜水进行调查分析,得出以下结
篮球项目包括中小学教学中各种球性、步法练习,运球、传球、投篮、技战术等各个技能(战术)单元的课时教学设计,以及高中模块教学的深度技战术配合的优秀案例。设计注重教学步骤、
本文从文学史的角度反思现代小说中“家”外生存的女性形象,拟从女性生存的社会氛围象征、“家”对女性出走的归宿与起点的双重意味、为女性之“我”而选择出走的审关内涵和文
【正】 湖心亭——这座上海最古老的茶楼座落在老城隍庙九曲桥中央。远远望去,茶楼飞檐挑角,玄瓦朱窗,宛如琼瑶仙境,极富有民族特色。公元一九八六年,英国女王伊丽莎白二世光
校园是一个人口密集区,而且宿舍是学生居住和活动的重要场所之一,人员具有很强的流动性和密集性,如果学生在宿舍违规使用大功率电器,就会电路的承载的功率过大,容易引发火灾,
随着国民经济快速发展和社会主义市场经济体制的运行与深化,公安执法业务量剧增,民警工作强度加大已成为不争的事实;同时,随着法制观念的日益深入人心,群众对警察执法过程、
随着中国足球职业化水平的不断进步和提高,不光是技战术层面的比较,更加根本的在于球员本身的身体素质,就像盖楼房的地基一样,要打的深,打的稳,这样球员的技术水平才能在高水
微时代的到来与兴起,随着网络科技的发展与普及,微电影在极短的时问内从“草根文化”发展到一种新的电影形式,微电影其短小精悍,投资小而见效快,内容丰富的特点深受广大投资