主题爬行器的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:missyouangle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的快速式发展,传统的通用搜索引擎技术暴露出了覆盖率低,资源占用多,更新时间长,结果的针对性低等一系列问题。为了克服通用搜索引擎的不足,满足特定用户针对特定领域的查询需求,以面向主题发现的爬行技术应运而生。主题爬行技术是在传统的搜索引擎面向整个网络爬行的基础上,应用机器学习等智能方法,对爬行做主题性的指导,使爬行程序只下载与某一主题相关的页面。主题爬行技术从90年代发展至今,以高度的目标化和专业化在下一代搜索引擎中占据了一席之地。目前对主题爬行器的研究集中在两个热点——文本分类技术和爬行策略。本文对主题爬行的关键技术——文本分类进行了研究。主题爬行器在进行文本分类时,通常用向量空间法的TF-IDF方法来计算特征项的权重,该方法只考虑了特征项在文档中出现的频率(TF)和以及特征项出现的文档数(DF),而没有考虑到特征项在不同位置出现对文档的重要程度是不同的。针对这一缺陷,本文提出了“基于特征项位置信息的权重算法”,对文档中不同位置的特征项赋予不同的加权因子,从而使特征项的权重能够较客观地反映特征项的重要性,提高了分类准确性。在具体实现中,还可以对权重因子进行调整,使之达到更好的效果。根据最佳优先爬行算法的不足,以及人在浏览网页判断一个URL链接页面的内容所利用的信息,本文提出了“基于URL综合信息的爬行策略”:利用当前页面的主题相关度、当前页面中的超链接所包含的URL的目录层次信息以及链接的锚文本信息对待爬行URL的主题相关性进行预估,根据结果将该URL放入不同优先级的待爬行队列中。对于预测主题相关度低的URL也不丢弃,而是放入等待队列中,待其他爬行队列空闲时,爬行这些URL以发现新的主题相关网页。使用这种爬行策略,可以提高主题相关度预测的准确性并能快速下载主题相关的网页。该方法计算简单,提高了爬行的速度和召回率。最后在上述“基于特征项位置信息的权重算法”和“基于URL综合信息的爬行策略”的基础上,设计和实现了主题爬行器,并介绍了系统的体系结构和具体实现技术。
其他文献
用户层次的差异、类型的多样构成了对信息需求的多样化。面对Internet上数字化、多媒体的信息资源,与传统图书情报用户相比,人们发愁的不是找不到资源,而是找不到与他们个性
随着Web服务技术的广泛应用,Web服务的数量日益增多,如何迅速准确地从数量众多的服务集合中寻找最佳服务日益受到关注。Web服务发现作为Web服务系统框架中的一个重要且关键部
知识管理技术是知识工程理论和互联网技术的结合,随着互联网的普及和快速发展,个人、组织、软件系统之间的交流与协作越来越重要。面对知识的海洋,如何组织、管理和维护海量信息
在数据存储方面,由于数据库的复杂性、多样性和成本等因素,许多公司往往很难作出选择。MySQL是世界上最大的开源数据库,具有低成本,高性能等特点,是可靠和可拓展的网络数据库
日新月异的Web技术正深刻地改变软件,基于Web浏览器的应用将成为计算机行业未来10年的主导。自从1991年互联网诞生以来,它就以史无前例的神奇速度成就了Yahoo、eBay、Google
视频会议系统从20世纪60年代出现至今,经历了从模拟信号到数字信号,从专线网络到公共网络的发展过程。然而,网络技术和成本原因使其无法面向普通大众提供高质量的视频会议通
移动台OTA测试是一种用于评测无线终端设备的测试方法,用于验证无线设备和网络的连接能力,以及使用者对辐射和接收性能的影响。通用接口总线(GPIB)普遍应用于智能仪器的管理,基
疲劳使得人的反应能力和操控能力大大下降,特别是对于外界瞬时的环境变化、出现紧急情况的状态下,如果不能及时地作出反应和应对措施,发生事故的可能性大大提高。特别是在驾
随着计算机网络和信息技术的广泛应用,信息和网络系统的安全变的至关重要。入侵检测技术是继防火墙、VPN、数据加密等传统安全保护措施后新一代的安全保障技术。它作为一种积
近几年来,工作流管理技术被业界广泛采用并得到了迅速发展。工作流管理最重要的功能之一就是工作流建模。这些预定义的过程模型必须能很好的反映实际业务流程,因此需要找寻灵