【摘 要】
:
垂直搜索引擎的概念,是针对某一特定行业领域提供有一定价值的信息和相关服务,它是搜索引擎的细分和延伸,是为用户提供符合专业用户操作行为的全新信息服务方式,本文是对垂直
【出 处】
:
浙江大学计算机科学与技术学院 浙江大学
论文部分内容阅读
垂直搜索引擎的概念,是针对某一特定行业领域提供有一定价值的信息和相关服务,它是搜索引擎的细分和延伸,是为用户提供符合专业用户操作行为的全新信息服务方式,本文是对垂直搜索引擎的抓取技术研究,主要关注垂直搜索引擎的抓取中所遇到的隐蔽网抓取、时效性以及性能和效率问题。本文首先介绍了垂直搜索抓取系统的体系结构,提出了一种分布式和基于可扩展插件的垂直搜索抓取系统框架,其分布式特性和插件模式都便于将来的扩展。然后讨论了垂直搜索抓取系统中隐蔽网抓取的三个问题,并针对隐蔽网抓取中结果消重的问题提出了一种自学习的中文地址判重方法;接下来针对垂直搜索的时效性问题提出了一种基于查询驱动的实时抓取方式;讨论了并比较了影响垂直搜索抓取系统的抓取模式、抓取策略和抓取频率,在本文的系统中采用了稳定持续模式、及时替换式更新、实时抓取与固定频率相结合的方式。本文最后进行了关于判重问题和时效性问题实验,通过实验,证明了本文提出的方法在应用中能获得更好的效果和用户体验。
其他文献
随着信息化的建设,网络覆盖的范围越来越广,网络上运行的服务器、客户端系统也越来越多。网络由安装Windows、Linux等操作系统的计算机组成,在这种情况下,为数量如此庞大、多
HTA(Hierarchical Task Analysis),即层次任务分析。它是HCI领域的核心技术,被誉为“几乎可以用于任何环境”及“最著名”的任务分析技术,是一种描述目标及其子目标层次体系
可重构计算是介于通用处理器和ASIC之间的全新计算解决方案,在计算机视觉、移动设备以及软件无线电等领域有广阔的应用前景。在可重构系统中,硬件模块可以像软件程序一样被动
在现代校园信息化过程中,校园环境中应用系统的数目在不断增加,所有的系统相互独立,每个应用系统都拥有自己的用户系统,用户必须记忆众多系统的登录信息,统一认证系统就是为
近几年以来,随着组件技术的不断发展成熟,在软件产业中,组件软件(Component Software,按组件模型组合而得到的软件)已经成为现代软件的首选开发模式。软件组件(Software Comp
概念图是一种简单高效的信息加工和呈现方法。现今,概念图作为知识组织和表示的工具,被广泛应用在教学领域。随着网络和信息技术的发展,计算机支持的协同学习(CSCL)在计算机支持
随着Internet的普及和多媒体技术的发展,多媒体信息的安全及版权问题引起了越来越多人的关注,数字水印技术应运而生。鉴于小波技术发展的日趋成熟以及其在图像处理方面具备的
传统的网络教育都是基于集中式C/S或B/S模式的,随着网络教育用户的急剧增长,在集中式C/S或B/S模式中视频服务器往往会负载过大,容易造成网络带宽瓶颈,影响服务质量。因此构建
随着互联网给人们提供的服务越来越丰富,恶意软件在网上横行的趋势也愈演愈烈。目前大多数恶意软件并不像计算机病毒那样具有明显的病毒特征,其主要目的也不在于对计算机系统