【摘 要】
:
随着Internet与数字化趋势的高速发展,用户或者数字化系统产生的计算机数据呈现爆炸式的增长。同时,随着Web技术的高速发展,计算机也正在从传统的单机服务方式转向Web方式的
论文部分内容阅读
随着Internet与数字化趋势的高速发展,用户或者数字化系统产生的计算机数据呈现爆炸式的增长。同时,随着Web技术的高速发展,计算机也正在从传统的单机服务方式转向Web方式的集中式服务。另一个显著发展的趋势是,在我们的生活中,非结构化数据正变得越来越多而且越来越重要。在这些发展趋势下,对于海量非结构化数据的集中式高效处理与管理就成为了一个非常迫切的需求。MapReduce是Google提出来的一个编程模型,是一个分布式计算框架,被用来处理和生成大数据集。MapReduce程序在计算机集群环境下并行地执行任务,有着极高的可扩展性。并且为开发人员隐藏了分布式系统底层的细节,使得分布式计算程序的开发变得简单高效。本文结合当下流行的MapReduce分布式计算框架实现了对海量非结构化数据进行解析,信息抽取,及建立全文索引的这一功能模块。使得全文索引模块能够充分利用计算机集群的处理能力来高效的处理海量非结构化数据。除此之外,本文还完成了对MapReduce程序模块进行深入的性能测试与性能调优。使模块的性能得到了极大的提高,并且总结了一些在特定条件下的调优策略。最后本文利用实现的全文索引模块构建了其上层的应用——“浙大文库”,来展示基于MapReduce的全文索引模块对上层应用开发的强大支持能力。
其他文献
本文主要对七福神与八仙的关系进行了研究,通过对七福神的发展演变和祭祀的考察,以及对其与八仙的异同之处的辨析和讨论,得出结论:七福神的形成有自己的发展线索,不是受八仙
超细铜粉由于其特殊的物理、化学性能,目前已被广泛应用于电子工业、导电涂料、催化剂、润滑油添加剂等多个领域,超细铜粉的制备工艺很多,其中液相还原法由于具有操作工艺简
玛格丽特·阿特伍德,加拿大诗人、小说家和评论家,其在文学创作领域里的多才多艺及丰硕的艺术成就使她成为了当代加拿大文学中最重要的女代言人之一。她的作品虽主题多样,风
对低层四坡屋面房屋模型进行了风洞试验,给出了屋面平均和脉动风压系数等值线和各面体型系数的变化规律。采用计算流体力学软件FLUENT,对大气边界层中的试验模型进行了三维定
随着社会和经济的发展,提高了人们的生活水平,提高了家长们对孩子教育投资的积极性,近几年更加关注孩子的早期教育,社会对独立幼儿园的需求量大大的增加,促使民办幼儿园的大
周敦颐(公元1017-1073年)字茂叔,号濂溪,汉族,宋营道楼田堡(今湖南道县)人,北宋著名哲学家。在曾任县主簿、县令、州判官、州通判、知州军,最高做到知州军,但为时不到半年。
<正>6年前,我表达自己对立体农场的一些简单的想法和设计以来,从那时起,建筑师、工程师、设计师和主流机构之间心得和经验的交流越来越频繁。今天,众多开发商、投资商、市长
科学的教学方法,能启迪学生思维、开发学生智力、发掘学生潜能,培养学生良好的思维品质和思维习惯,使教学收到事半功倍的效果。因此对于教学方法的研究就成为教师主要的职责
家庭作为社会的基本细胞,它是社会有机体的基本单位,家庭的演变过程,与我们的日常生活息息相关.随着社会生活的丰富多彩和科学发展观的不断深入人心,建立家庭档案的社会功效
水电作为一种清洁的可再生能源,在世界能源结构中占有重要的地位,世界各国也都把水电放在优先发展的位置。但是,水电开发在带来巨大经济效益的同时,不可避免的会对人文、生态