【摘 要】
:
伴随着信息社会的发展,每个行业都产生了越来越多的数据,对这些行业本身来讲,从这些看不出规律的数据中提取出有用的信息变得越来越重要。如今,被广泛地应用于各行各业的关联
论文部分内容阅读
伴随着信息社会的发展,每个行业都产生了越来越多的数据,对这些行业本身来讲,从这些看不出规律的数据中提取出有用的信息变得越来越重要。如今,被广泛地应用于各行各业的关联规则分析逐渐成为了数据挖掘技术中的研究热点,于是现阶段在数据挖掘领域中最重要的任务就是,如何更高效地应用关联分析技术来处理这些海量的数据集。长久以来,传统的Frequent-pattern Growth算法(即FP-Growth算法)是关联规则技术中最核心的算法,但当它在面对大规模数据集时,内存不足和执行时间过长的短板就会暴露出来,而解决这些问题最好的方式无疑是并发处理。本文改进了原有的FP-Growth算法的频繁模式树(即FP-tree)的数据结构,并且对其运用剪枝策略,通过合并满足规则的FP-tree单路径来优化FP-tree,减少了挖掘过程的迭代次数,从而加快了效率。同时,考虑到Spark平台较Hadoop等平台的优势,本文将改进后的串行算法部署到了 Spark集群,实现了算法的并行化,提出了 Improved Spark FP-Growth算法,简称IPFP算法。本文设计了实验对比了 IPFP算法、在Spark平台部署的未改进的FP-Growth算法以及在Hadoop平台部署的改进后的FP-Growth算法在不同支持度与事务量上的时间效率,实验结果表明]IPFP算法在不同支持度与事务量上的时间消耗最少。本文将IPFP算法应用在高校图书馆的图书推荐上,设计了基于IPFP的图书馆选书推荐算法。通过IPFP算法从图书馆借阅数据库挖掘出频繁项集并生成关联规则,再将生成的关联规则用于图书馆的选书推荐服务。本文设计实验对比了在不同邻居数目K条件下基于IPFP的推荐算法、基于协同过滤的推荐算法以及传统的关联规则推荐算法。实验表明基于IPFP的推荐算法在推荐的准确率和召回率这两个指标上优于其它两种算法。
其他文献
本文运用后殖民主义批评家霍米·巴巴的杂煣理论、“第三空间”理论,以及“居间”等理论,对美国华裔作家任碧莲的4部长篇小说和一部短篇小说集进行文本细读,从“颠覆与消解”
本文从食品质量安全的内涵出发,定义了将质量安全按经济学特征差异划分为"品质"和"安全"两个方面的"全面质量安全观",并从生产和交易两个维度构建了产业组织模式与农产品质量
目的了解河南省中等医学教育专业设置现状,为中等卫生职业学校充分利用现有教学资源,及时调整专业设置和专业方向,培养符合当前社会需要的中、初级卫生技术人员提供可靠依据。方
北斗卫星导航系统以其精准定位、授时和短报文收发功能,将导航、定时和通信有机融合在一起,为海上业务开展提供了极大的便利。北斗地基增强系统是北斗高精度定位能力的基础设
本文以河北唐山地区某企业低温多效蒸馏海淡装置(LT-MED)外排浓盐水为研究对象,以其资源化利用为目标。在渤海夏季污染物峰值期进水条件下,袋用“冷却塔→多介质过滤器→超滤→双
以全球变暖为主要特征的气候变化已经成为国际社会关注的热点问题之一。201 1年中国在《中国应对气候变化的政策与行动》白皮书中提出,到2020年单位GDP的温室气体排放比2005年下降40%-45%,减排程度甚至超过欧美发达国家。特大城市的低碳发展是中国实现温室气体排放控制目标的基础,对减排责任的分解和落实具有重要的实际意义。西安市作为中国西部唯一一个特大城市,近些年,在“大西安建设”这一重大发展战
现代畜牧业既是促进农村生产发展的朝阳产业,又是实现农民生活宽裕的优势产业。分析了发展现代畜牧业对促进社会主义新农村建设的重要意义;加快发展现代畜牧业,要注意强力推
提高反恐情报危机决策水平,明确反恐情报危机决策发展方向是公安边防部队取得反恐斗争胜利的必然选择。运用SWOT分析法深入剖析公安边防部队进行反恐情报危机决策时的外部环
玉米须是一种传统草药,概述玉米须成分研究进展,并从抗菌、抗肿瘤、降血糖、利尿与抗结石形成、对循环系统和肝的作用、对免疫系统的影响、毒性等方面阐述了其药理作用,同时
对科学、艺术、时尚的新视角和新取向进行探索,是当代艺术设计教育的灵魂所在。时尚产业的崛起,需要大量高水平的时尚产业从业人员的推动。这也就要求大学必须根据时尚产业的