基于Hadoop的垂直搜索引擎的设计与实现

来源 :武汉科技大学 | 被引量 : 1次 | 上传用户:z57989503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络信息呈现爆炸式地更新和增长,各式各样的搜索引擎逐渐进入了大众的视野。面对海量数据,传统的集中式搜索引擎存在服务器负载强度大、系统不够稳定且工作效率低等性能瓶颈。通用式搜索引擎也存在检索范围广,检索结果不专业、不准确的缺点,显然不符合特定领域下信息检索的需求。基于上述问题,本文提出了一种基于Hadoop的垂直搜索引擎系统。该系统搭建了一个Hadoop云计算平台,完成文件的分布式存储和数据的并行处理。在分布式集群环境中结合MapReduce编程模型,实现搜索引擎的各功能模块。在高效处理数据的同时,保证了数据的安全存储和系统的稳定运行。另外,本文为该系统的网页信息抓取模块设计了一个面向主题的网络爬虫算法VPCRAW用以抓取与主题相关的网页信息。该算法综合了VSM算法和PageRank算法的优势,兼顾网页内容相关性和链接权威性,真正做到了网页信息的垂直抓取,为后续模块提供更为专业的源文件,从而提高最终检索结果的准确率。实验仿真结果表明,在处理海量的互联网数据时,相较于传统的集中式搜索引擎,基于Hadoop的垂直搜索引擎能够有效地提高系统工作效率;相较于通用式搜索引擎,该系统获取的检索结果更具权威性,且最终检索结果准确率更高。另外,可以通过调整VPCRAW算法中的阻尼系数p来抓取不同的网页信息,从而满足不同的检索需求。
其他文献
辅助生殖技术(ART)虽然已成为人们解决不孕不育的主要手段,但该项技术仍存在一定安全隐患,如经卵胞浆内单精子注射(ICSI)和体外受精一胚胎移植(IVF—ET)获得的胎儿有表观遗传学改变的
印度尼西亚国有的阿萨汉铝业公司(PT Asahan)制订了雄心勃勃的发展规划,力争在今后15a左右或更长一些时间内把自己打造成像力拓公司、俄罗斯联合铝业公司、中国铝业集团等那
目的观察血清胱氨酸蛋白酶抑制剂C(Cystafin C,简称Cys C)在新生儿高胆红素血症中的变化,评价其对肾滤过功能的影响。方法应用酶联免疫吸附法(ELISA)对68例(观察组)新生儿高胆红素血
以PC机和数据采集卡为主要硬件,采用LabVIEW为软件开发平台,构建了虚拟数字示渡器,该仪器能够实现时域分析和频域分析。该测量系统在三相交流电动机的电流测量的试验中,得到了很
目的对消化道出血患者的临床特点观察并采取对应护理措施的应用价值。方法取本院老年消化内科患者260例为本文分析对象,随机分为两组,每组各有患者130例。常规组患者接受常规
分析不同浓度的6-BA+K2SO4处理对成熟期苹果果实内总糖、还原糖、可溶性糖、矿质元素和果实单果重的影响;研究材料:6年生"长富2号"苹果叶片及果实;研究结果:(1)各处理明显提
目的 探讨多层螺旋CT扫描及图像后处理技术在小儿气管、支气管异物的诊断价值.方法 回顾性分析经临床支气管镜检术确诊为气管、支气管异物的12例患儿的多层螺旋CT轴位扫描及
目的 探讨Fr¨ankelⅡ型功能矫治器对儿童上气道变化的影响。方法 随机抽取经Fr¨ankelⅡ型矫治器治疗的安氏Ⅱ类 1分类错患儿 2 0例 ,其中男、女各 10例 ,年龄 9~ 10岁 ,
随着信息技术的发展,搜索引擎已经成为了互联网的入口。垂直搜索引擎在垂直领域深度采集数据并加工处理,提供精准和专业搜索服务,具有广泛的关注度和市场需求。智能爬虫是垂
目的 探讨结肠癌并急性肠梗阻的外科处理方法.方法 总结分析49例结肠癌并发急性肠梗阻的治疗及预后.结果 Ⅰ期切除吻合38例,Ⅰ期切除近端造口6例,单结肠造口术 5 例.并发症切