基于Hadoop的搜索引擎的研究与应用

被引量 : 0次 | 上传用户:jia729508703
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的大规模普及,用户对于信息检索的要求日益严格。实现快速、准确且全面的信息搜索能为各类机构获得较高的客户满意度和良好的商业效益。由于技术和经济实力受限,大多数中小型机构难以像大型机构那样根据用户需求实现专有的高效搜索体系,也难以结合中小型机构自身的需求作进一步的个性化设计。因此如何有效利用现有搜索引擎巨头的技术,为更多机构,尤其是具备一定数据集,但经济承载力较小、核心开发能力较弱的中小型企业、高校及科研机构等提供强大的搜索计算技术和多样化服务,成为当前搜索领域的研究重点和难点。本文结合实际应用需求,研究基于Hadoop的分布式搜索引擎原理、相关技术和算法,深入剖析分布式计算框架MapReduce和分布式文件系统HDFS,引入MapReduce编程模型的具体设计方案,将BM25排序模型集成于Lucene实现检索评分,采用Paoding分词器做中文分词处理,完成了系统在Hadoop平台的架构设计,确定了系统功能划分,分析并设计爬行、索引和检索流程,完成了三个子系统的改进与实现。在分析、评价和总结中小型机构实现信息高效搜索的需求和现存弊端的基础之上,本文集成三个相对独立的子系统的设计与实现,完成了Hadoop框架搭建和相关配置,部署实现了3个节点的分布式搜索引擎系统。最后从中小型机构用户的搜索需求出发,对本系统性能进行测试与评价。具体以浙江理工大学网站作为实验对象,在三节点的分布式平台与单机环境下考察系统进行网页爬取和索引的效率。爬行和索引用时计算结果表明,对于20000个网页,集群用时相比单机节省约15.64%。随着网页数量的增加,该差异逐渐扩大。同时通过比较不同网页数对应的检索结果匹配度,计算得出基于Hadoop的分布式搜索引擎系统检索的平均准确率较单机环境提升了近20%。实验结果表明,在机构网页量增加到一定程度后,该面向中小型机构的分布式搜索引擎系统较传统集中式搜索引擎能更快速获取用户需要的更加精准的检索结果且系统安全稳定性和可扩展性得到提升,从而改善了中小型机构信息检索效能,加快其信息化程度。
其他文献
依据城市流强度值,京津冀地区城市群各城市在区域中的联系地位表现为:高城市流强度值城市为北京、天津,是城市群区域联系的中心;中城市流强度值城市为石家庄、唐山、保定是区
在这片文章中,说明了什么是有效组合及有效组合函数,着重研究了有效组合函数、有效组合函数的导数和积分的周期性.
本翻译实践报告以笔者翻译的《地狱厨房》第十季第十一集字幕为基础,是对此次翻译任务的过程和完成情况所做的一个介绍、研究和总结。影视字幕翻译在跨文化交流的过程中发挥
面对日益激烈的全球化竞争和难以预测的经济发展形势,发展医药产业创新体系成为越来越多医药企业谋求企业复兴和持续发展的重要手段。创新是医药企业发展的永恒主题,是医药企
为了解决传统的人工和非移动仓储管理的弊端,采用移动数字终端和二维码扫描技术,实现对仓储物资的入库、出库和盘点的移动管理,构建基于移动终端技术的仓储管理系统。该系统主要
<正> 植物光合作用促进剂是目前比较先进的一项高新技术成果,其主要机理是活化植物体内ATP酶和羧酶,提高光合效率,同时还能抑制光呼吸,增强植物的抗逆性和抗病性。为了使这一
2013年“两会”中提到“建设服务型政府”、“转变政府职能”、“提升政府公信力和执行力”是我国长期以来的改革主题,也将成为我国政府改革的奋斗目标,而公务员则是实现这些
针对传统渐开线罗茨转子型线存在的面积利用率低的问题,提出了改变传统渐开线转子型线设计参数之间的约束关系以提高面积利用率的方法;通过分析逐步确定基本设计参数,在此基
基于旋转变压器(简称旋变)获取PMSM转子位置和转速,近年来已经成为国内外研究领域的热点之一。论文首先根据旋变数字转换器AD2S1205工作原理,设计励磁电路、调理电路及AD2S1205与
随着水产养殖集约化水平的提高, 特别是鱼类人工繁殖和工厂化养殖技术的广泛应用, 推动了相应配套养殖工程设施和设备的设计与建造技术的不断创新, 并把建筑科学与生物科学有