垂直搜索引擎中聚焦爬虫技术的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:kennshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,多元化信息呈几何级数增长,用户对于信息检索服务也提出了越来越高的要求,尤其是在检索结果的专业性和准确性上,而通用搜索引擎的检索能力无法满足这种需求,垂直搜索引擎应运而生。它是一种全新的搜索服务模式,是为某一特定专业、人群或主题的需求提供服务的。针对通用搜索引擎而言,垂直搜索引擎具有检索更精确、专注、具体和深入的特点。聚焦爬虫作为垂直搜索引擎的核心部件,它采用何种搜索策略检索Web资源会直接影响到垂直搜索引擎的优劣,因此近年来聚焦爬虫已成为垂直搜索引擎研究中的热点领域之一。论文详细的阐述了垂直搜索引擎和聚焦爬虫的相关概念、工作原理及主要关键技术,在仔细研究搜索引擎中现有经典的搜索策略、主题相关性判别算法及页面的分布特征的基础上,提出基于主题相关度和页面重要性相结合的立即价值来判别页面主题相关性,并采用自适应免疫算法指导聚焦爬虫的爬行策略,取得了较好的实际效果。同时针对基于单一价值评价的聚焦爬虫搜索策略存在主题漂移等不足,提出一种基于量子进化算法(QBEA)的智能爬行算法,该算法充分结合网页在互联网上的分布特点,利用立即价值和未来价值两类评价标准的优势,根据聚焦爬虫实际运行过程中的搜索情况,在线调整这两种标准在综合价值中的比重,通过实验仿真结果可知,量子进化算法获得较高的页面查全率和信息查准率,能较好地解决现存问题,具有一定的自适应性。最后,针对实际应用需要,将所提聚焦爬虫搜索策略应用到实际系统中,并在系统中引入了Oracle SES技术,运行结果表明本文的工作是有效的,具有一定的创新性和实际应用价值。
其他文献
学术领域信息,如学术文献信息和作者信息等,是学术研究者持续关注的重点信息。深入挖掘学术领域信息,构建相关学术网络,对学术研究工作和学科发展有很大的意义。现有的大型专
中国是制造大国,但远非制造强国。制造业的发展过程中存在资源闲置和资源瓶颈共存的问题,云制造概念为该问题的解决提供了新的思路。云制造环境下制造资源复杂多样,同时又需要最
自20世纪70年代以来,随着国内外食品药品安全事件频发,食品药品质量安全问题已经成为世界关注的热点。虽然可追溯系统在农产品方面的研究和应用已经初见成效,但对于中草药的
近年来,随着计算机和多媒体信息技术的迅速发展,图像和三维模型等数据也呈现出几何倍数增长。但同时,这些海量的数据也给人们对关键信息的获取带来了巨大的工作量和挑战。因此,人
近年来,随着科学技术的大力发展,现代化设备在电力系统中的应用也越来越广泛,因而其故障诊断在显示应用中的意义也越发重要。一台设备如果不能及时发现其潜在故障,而是在发生故障以后断电检修,不仅会在经济上给人们的生产生活造成损失,甚至造成生产事故。对此,在电力系统中,以排查设备故障隐患为目的的设备状态检修可以在对尚未出现故障的设备进行故障诊断,在出现故障征兆时发出预警,在电力企业的生产工作中有着重大的意义
近年来,由于各类消费类电子产品的兴起,嵌入式程序开发工作的复杂程度也日益加大。开发环境对嵌入式软程序开发而言是非常重要的,一个合适的程序开发环境可以有效地提高嵌入式程
无线传感器网络是由大量成本低廉的传感器节点以无线通信方式自组织形成的网络,能够实时地感知、采集、处理网络区域内监测对象的信息,具有快速展开、高监测精度、容错性强等
随着云计算的发展,越来越多的应用以云端服务的形式开放,随之引发了Web服务数量的爆炸式增长,互联网上涌现出越来越多的功能相同但服务质量(QoS)不同的Web服务。面对如此庞大
对计算机而言,感知和识别自然界中的物体和场景,是异常困难的任务。如何准确地运用计算机语言来表达自然场景,使其不但能够区分不同的物体,还能够克服各种变换带来的问题,选
随着科技的迅速发展和计算机技术的不断进步,人们的生活越来越离不开计算机,尤其是近三十年网络的迅猛发展使得信息交流不再受距离、时间、空间所限,而在信息交流的过程中难