论文部分内容阅读
随着大数据时代的到来,如今人们已经淹没在海量的信息世界当中。权威机构2011年发布的统计数据显示,全球数据总量每过两年就会增长一倍,预计到2020年人类拥有的数据总量将会达到惊人的35万亿GB。面对如此浩瀚的数据海洋,如何从中提取有价值的信息,数据挖掘技术凸显出了强大的生命力。通过数据挖掘技术,可以从海量的、随机的、模糊的、有噪声的数据集合中抽取出有用的知识、规则或高层次的信息,这对科学研究与商业决策等领域具有指导性的意义。大数据带来了大机遇,同时也为有效管理和利用大数据提出了挑战。云计算是一种以服务的方式提供动态可伸缩的虚拟化资源的计算模式。云计算技术的出现,使许多云环境下的新型应用蓬勃发展,也为解决在海量数据中高效地挖掘出有价值的信息提供了新的思路。利用云计算的分布式处理和虚拟化技术的优势,本文进行了以下三方面的研究工作:首先,针对传统的Apriori关联规则算法存在的缺陷,文章基于列存储数据库HBase的存储模型提出了一种将Map/Reduce编程模型与编码操作相结合的分布式关联规则挖掘算法——MCM-Apriori算法,来准确快速地找出知识模型之间的联系,通过两次Map/Reduce过程,大大减少了算法的运行时间,真正实现了运用算法高效、准确解决问题这一目的;其次,针对大数据管理的新需求,文章基于key-value引擎的内存数据库Redis以及Cuckoo Hash技术,提出了一种混合哈希快速查找算法CSR_Hash,通过建立一个公共溢出区,并添加键频项的方式来提高查找搜索的效率,缩短查询响应的时间;最后文章设计并实现了一个基于Hadoop云平台的网上图书销售系统,并在该系统中利用改进后的MCM-Apriori算法以及快速查找算法CSR_Hash,对图书数据进行实时高效的解析与推荐,实现了快速计算分析与查询、低冗余、可靠存储的功能,真正展现了NoSQL数据库与Map/Reduce结合的实时性和高并发性的优势。