基于MapReduce的分布式搜索引擎研究与实现

来源 :太原理工大学 | 被引量 : 9次 | 上传用户:liuhaichao811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是人们在当今信息飞速增长的时代所不可缺少的一个工具,越来越多的学者倾向于认为搜索引擎是一个集信息检索、互联网服务、用户行为分析以及高性能与分布式计算等多个重要研究方向为一体的综合性平台。如何从互联网这个拥有海量资料的信息库中获取数据,进行高速有效地处理并为用户返回精准的信息被认为是搜索引擎技术发展的核心。为了保护商业机密,现有各大商业搜索服务提供商对其核心技术严格保密,加大了研究搜索引擎的难度。本文在对搜索引擎的流程和原理以及MapReduce编程模型进行详细分析的基础上,结合Lucene全文索引等开源工具包,构建了一个分布式搜索引擎系统,利用此系统不仅可以展开对搜索技术的研究,而且在一定程度上改进了现有搜索引擎的性能。本文的研究工作包括以下几个方面:第一,分析了通用搜索引擎的原理和信息处理流程,描述了分布式计算系统的体系结构,对Hadoop平台的MapReduce分布式编程模式以及Hadoop分布式文件系统进行了详细分析,并以此为基础提出了分布式搜索引擎的架构。第二,分析了网络爬虫系统的原理及其分布式实现方法,对全文索引结构的建立、中文分词算法、多格式文档解析以及页面评分算法等关键技术进行了研究,提出了利用网络爬虫进行分布式多线程爬取、多格式文档解析以及对页面评分算法进行分布式改造的方法,确定了分布式搜索引擎系统的模块划分及各自功能,并对分布式搜索引擎的结构进行了详细设计。第三,使用JAVA编程语言,完成了分模块的具体分布式实现,并通过实验室集群对系统的性能进行了测试,验证了系统设计的可行性。最后,总结了本文的研究工作,并对未来可能实施的研究内容进行了讨论。
其他文献
在目前"美丽乡村"建设的大背景下,将有条件地区的乡村闲置宅进行旅游开发是城市边缘区闲置宅开发的重要模式之一。我国乡村闲置宅旅游开发经历了农家乐阶段、村合作社阶段、
影子银行是金融改革和金融创新的产物,直到2007年美国次贷危机全面爆发其背后隐藏的巨大风险才逐渐引起国内外学者的特别关注。作为市场的新生力量,影子银行职能是促进资本市
创意思维是珠宝首饰设计的核心与灵魂。通过阐述创意思维及珠宝首饰设计的定义和内涵,分析并总结了创意思维与珠宝首饰设计的相互关系。现代珠宝首饰设计更多的是设计师们一
<正>今年7月国家税务总局进行了机构改革,信息化方面的最大变化是新成立了征管和科技发展司。该司除保留原征收管理司纳税服务外的其他职能,还将信息中心的信息化行政管理职
用光学显微镜和扫描电镜观测了 12种中碳和高碳钢淬火组织形态 ,证明了中碳和高碳钢在高温淬火后形成的束状组织不是板条马氏体 ,而是片状马氏体。从晶体学角度探讨了片状马
本文从金铁锁的化学成分、药理学和临床研究以及人工栽培、组织培养、遗传学等方面,对金铁锁的研究状况进行了综述,分析了目前研究存在的不足和面临的问题,提出了有待继续深
本文对苗药金铁锁的本草考证,资源考察,生药鉴定,化学成分,药理等方面作了总结与归纳。并在药理研究领域着重介绍了本工作组在金铁锁镇痛机理方面所作的工作以及正在展开研究
满语的使用经历了由单一少数民族使用的语言发展成为全国通用的国语,之后又逐渐衰落,直至最后退出使用的过程。整个过程可以分为两个阶段,第一阶段为清入关前时期,此时满语的