基于网页去重的垂直搜索引擎设计与实现

被引量 : 0次 | 上传用户：jsptpd_dryy

【摘要】

：

近年来,互联网的飞速发展导致网页数量不断增长,而综合搜索引擎由于存储、计算资源和带宽等方面的问题想要检索互联网上全部的网页是不可能的。因此,为了满足特定领域的用户

【作者】

：

赵立磊

【发表日期】

：

2012年期

【关键词】

：

垂直搜索引擎主题爬虫全文检索网页去重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,互联网的飞速发展导致网页数量不断增长,而综合搜索引擎由于存储、计算资源和带宽等方面的问题想要检索互联网上全部的网页是不可能的。因此,为了满足特定领域的用户需求,保证检索结果的专业性,人们开始对垂直搜索引擎进行研究。垂直搜索引擎采用主题爬虫对特定主题的网页进行抓取,对特定的领域进行了专业的过滤和筛选,使得某一特定领域内信息更加全面和深入。然而,垂直搜索引擎相对于综合搜索引擎来说更易抓取到重复或者近似重复的网页,而且它在抓取的时候具有不同于综合搜索引擎的特殊性,因此现有的网页去重策略在垂直搜索引擎的网页去重中存在缺陷。本文围绕垂直搜索引擎的设计和实现,首先对垂直搜索引擎的现状做了简要介绍,然后针对垂直搜索引擎中的主题爬虫和全文索引进行了深入分析,为最后一部分的系统实现提供了理论基础。针对垂直搜索引擎中的网页去重,首先对网页重复的原因、类型、去重的意义和常用的网页去重算法做了简要介绍,然后指出现有垂直搜索引擎中进行网页去重的不足,即它们都没有考虑垂直搜索引擎的特殊性,没有利用垂直搜索引擎的自身特点进行网页去重。因此,本文将基于内容的主题爬虫算法和基于内容的网页去重算法相结合,提出了一种适用于垂直搜索引擎的网页去重策略,使得主题爬虫在抓取网页的过程中能够过滤掉重复或者近似重复的网页,减轻了搜索引擎后期处理重复网页和构建索引的负担,并通过几组相关实验证明了本文提出的网页去重策略的优越性。在本文最后一部分进行了垂直搜索引擎的设计与实现,应用上述理论设计了一种主题与“中药材”相关、基于Solr服务器的垂直搜索引擎。在实现过程中,针对如何获取“中药材”相关的种子URL和主题词典提出了实际可行的方法,并采用JAVA技术对搜索引擎的主题爬虫进行了改进,使其能够在抓取网页的时候过滤掉重复或者近似重复的网页。

其他文献

奶牛酮病发病率调查及丙二醇预防酮病的效果研究

奶牛酮病是围产期常发的一种营养代谢病，可严重地影响奶牛健康及牛场的经济效益，并制约奶牛业的发展。鉴于酮病对奶牛的严重危害，为奶牛酮病提供有效的防治措施是十分重要的。因

学位

奶牛酮病泌乳性能繁殖性能丙二醇经济效益

基于神经网络的水平光管内有机工质流动沸腾换热研究

在全球能源危机与环境问题日益加剧的形势下,节约能源、减少温室气体的排放和大气臭氧层的破坏,已成为当今人类社会面临的重大挑战。准确掌握工质的流动沸腾换热性能,对于换

学位

有机工质流动沸腾换热神经网络关联式误差

黄骅拗陷滩海地区古近纪孢粉组合及其古气候研究

本文对黄骅拗陷滩海地区古近纪孢粉化石进行了较为系统的研究，在对该区8口钻井126块样品进行孢粉分析、鉴定及整理的基础上，结合近年来地层学研究的新成果，对黄骅拗陷滩海地区古

学位

孢粉组合沙河街组东营组古近纪滩海地区:黄骅拗陷

双波长环形腔掺铒光纤激光器的研究

多波长激光器可以同时为多个信道提供所需光源,使发射端的设计更为紧凑、经济,因而在密集波分复用系统、激光测距、光谱分析和光纤传感等领域有极大的应用价值。近年来,多波

学位

掺铒光纤激光器环形腔双波长光纤布拉格光栅

试论李娜的演唱艺术

李娜是当今中国乐坛上有着重要影响的歌唱演员。本文在广泛收集资料，深入采访当事人的基础上，着重探讨了李娜的从艺道路、演唱风格和当下意义。在从艺道路方面，李娜经历了名校学

学位

李娜传统戏曲现代声乐艺术探索演唱风格启示

轨道交通安全系统多维时空模型的研究及应用

中国轨道交通在快速发展的同时,也面临新的挑战——如何在复杂多变的运营环境下,保证轨道交通系统的安全性和可靠性,并不断提高系统的服务水平和舒适度?而安全作为轨道交通系

学位

轨道交通安全混杂元胞自动机多维时空模型轨道交通时空动态系统模型轨道交通时空仿真模型轨道交通时空数据模型青藏铁路

赣州有色金属产业集群发展中的人力资源开发问题研究

随着经济一体化的不断发展,产业集群战略已经成为赣州有色金属产业发展战略的现实选择。如何推动赣州有色金属产业集群发展,进而推进产业升级、加快产业结构调整,进一步转变

学位

产业集群发展政府及公共部门人力资源开发

超声检查对胃癌诊断价值

目的：研究超声检查对胃癌的诊断价值。方法：采用双盲法分别行超声和胃镜检查，61例患者后经手术病理证实。结果：超声对胃癌的显示率为83.6％，对胃壁侵及层次、淋巴结转移、其他脏器转

学位

超声检查胃镜检查胃癌

反射型分布式拒绝服务攻击中攻击源追踪的研究

随着时代信息化的日趋成熟，计算机网络技术已深入到人们的工作和生活中，越来越多的人享受计算机网络技术带给人们的种种好处。但由于网络技术发展的不完善，网络安全隐患也给人们

学位

拒绝服务攻击攻击源追踪包标记

空气质量评价及可吸入颗粒物中重金属的特征分析

论文对保定市文教区不同粒径的大气颗粒物进行采集，并对颗粒物中的某些金属元素做了检测，根据大气颗粒物情况对空气质量进行了分析评价。全文共分五章。第一章：文献综述。对城市

学位

空气质量可吸入大气颗粒物金属元素模糊数学原子荧光ICP-MS

基于网页去重的垂直搜索引擎设计与实现

其他学术论文