Hadoop平台下的数据挖掘技术研究

被引量 : 0次 | 上传用户:ylznaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,如今人们已经淹没在海量的信息世界当中。权威机构2011年发布的统计数据显示,全球数据总量每过两年就会增长一倍,预计到2020年人类拥有的数据总量将会达到惊人的35万亿GB。面对如此浩瀚的数据海洋,如何从中提取有价值的信息,数据挖掘技术凸显出了强大的生命力。通过数据挖掘技术,可以从海量的、随机的、模糊的、有噪声的数据集合中抽取出有用的知识、规则或高层次的信息,这对科学研究与商业决策等领域具有指导性的意义。大数据带来了大机遇,同时也为有效管理和利用大数据提出了挑战。云计算是一种以服务的方式提供动态可伸缩的虚拟化资源的计算模式。云计算技术的出现,使许多云环境下的新型应用蓬勃发展,也为解决在海量数据中高效地挖掘出有价值的信息提供了新的思路。利用云计算的分布式处理和虚拟化技术的优势,本文进行了以下三方面的研究工作:首先,针对传统的Apriori关联规则算法存在的缺陷,文章基于列存储数据库HBase的存储模型提出了一种将Map/Reduce编程模型与编码操作相结合的分布式关联规则挖掘算法——MCM-Apriori算法,来准确快速地找出知识模型之间的联系,通过两次Map/Reduce过程,大大减少了算法的运行时间,真正实现了运用算法高效、准确解决问题这一目的;其次,针对大数据管理的新需求,文章基于key-value引擎的内存数据库Redis以及Cuckoo Hash技术,提出了一种混合哈希快速查找算法CSR_Hash,通过建立一个公共溢出区,并添加键频项的方式来提高查找搜索的效率,缩短查询响应的时间;最后文章设计并实现了一个基于Hadoop云平台的网上图书销售系统,并在该系统中利用改进后的MCM-Apriori算法以及快速查找算法CSR_Hash,对图书数据进行实时高效的解析与推荐,实现了快速计算分析与查询、低冗余、可靠存储的功能,真正展现了NoSQL数据库与Map/Reduce结合的实时性和高并发性的优势。
其他文献
中文和英语之间由于行文习惯、文化及逻辑等方面的差异,因而在两种语言翻译的过程中必然会遇到诸如语序、结构调整等翻译问题,在汉译英时尤其突出。如果翻译策略与技巧使用不
目的:通过与CAG比较,评价双源CT冠状动脉成像(CTA)对冠状动脉易损斑块的诊断价值。方法:2013年6月至11月5日新疆医科大学第五附属医院46例(临床高度怀疑或确诊冠状动脉疾病),所
目的:脑缺血损伤可诱发强大的免疫炎症反应。免疫系统与缺血的脑组织之间的相互作用参与了脑中风的病理形成,因而成为了中风治疗的一个新靶点。近期的研究提示CD4+CD25+调节性
自古以来,“居者有其屋”成为人们一种最朴素的物质追求。对老百姓而言,房屋是一个家庭的命脉,许多人为其奋斗一生,甚至倾其所有。它不仅仅是人们安身立命之所,而且是一种家
鸠摩罗什开创了中国佛教译经的新时代。为了适应中国传统文化的需要,他简约文字,突出汉语语言的文学性,增强可读性和通俗性,他翻译的许多佛经,成为中国佛教发展史上广为流传
随着国际人权的发展,残疾人的人权逐渐被国际社会予以重视,尤其是作为残疾人物质保障的就业权,理应得到国际法的保障。但是放眼国际社会,无论是发达国家还是发展中国家,残疾人始终
伴随各类尤其是一些大型建筑物不断矗立,混凝土在其中起着重要的作用,因而混凝土的质量也十分重要。但若混凝土调配不佳,就有可能伴随离析现象,对工程以及施工进度常常造成很
汉拼字母词是提取汉语音节首字母拼写汉语词语的字母词,它是对印欧语词语缩略形式的机械模仿。本文通过对该种字母词在汉语中产生原因的探讨、使用现状的考察和梳理,深入分析了
高校博物馆是已知最早的博物馆建筑,其工作内容及运营模式都不同于社会博物馆。我国高校博物馆发展较晚,从现状上来看仍存在一些问题,但进入21世纪以来,各类大型博物馆也开始
本研究以高中英语教师为研究对象,采用了非结构访谈、行为事件访谈、问卷调查和实验等研究方法,完成了高中英语教师胜任特征模型的构建及编制胜任特征测验的编制,并设计实施了基