垂直搜索引擎的主题网页抓取策略研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:tiaozhanwudeshou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的飞速发展,互联网已成为海量信息的主要载体,如何有效的利用这些信息,对人们来说是一个巨大的挑战。搜索引擎作为信息检索的工具,现已成为用户访问互联网的入口和指南并受到广大用户的青睐。然而,传统的搜索引擎正面临着网页索引规模、更新速度、个性化需求和查询结果精度低等多方面的严峻挑战。为解决传统搜索引擎所面临的突出问题,面向特定主题的垂直搜索引擎便应运而生。主题网页抓取技术是构建垂直搜索引擎的核心技术,它的目标是尽可能多地抓取与特定主题内容相关的网页,同时最大限度地避免无关网页的抓取。因此,对主题网页抓取策略的研究具有十分重要的意义。本文主要以垂直搜索引擎的主题网页抓取策略作为研究内容,从提高主题网页抓取的准确率和效率作为出发点,详细分析了现有的主题网页抓取方法及其优缺点。重点分析了基于隐马尔科夫模型的主题网页抓取策略的实现和优缺点,以此为基础,提出了一种改进的主题网页抓取策略。为了使特征词权重更能代表网页的真实内容,改进了网页预处理后的特征词权重的计算方式,对网页中不同位置的特征词赋予不同的权重。为了提高主题网页抓取的准确率,改进了待爬行队列中URL优先权值的计算方法,综合考虑了隐马尔科夫模型方法和网页内容相关度方法。为了验证改进算法的性能和效率,本文将改进后的方法与隐马尔科夫方法和Best-First方法进行对比,实验结果表明,在抓取大量主题网页时,改进后的方法能抓取大量与给定主题相关的高质量网页,主题爬行性能优于改进前的隐马尔科夫方法和Best-First方法。
其他文献
本文是根据作者在科泰世纪科技有限公司参加具有完全自主知识产权的和欣操作系统开发实践的基础上写成的,作者承担的主要任务是移植FreeBSD中关于USB的低层代码,构件化设计和欣
磁盘阵列并不是在任何情况下都能取得令人满意的性能,磁盘阵列总是有不尽人意的情况:磁盘阵列中单个磁盘的存取和普通单磁盘存储器的操作相同,仍受到缓慢机械运动的限制,这就
Internet改变着我们工作和生活的方式,已经成为获取信息、解决问题的重要途径。在计算机辅助教学领域的今天,网络化也势不可挡,随着教育信息化进程的不断加快,我国远程教育网
随着计算机技术的发展,信息技术的应用越来越普及,企业计算向网络组件方式发展,目前存在三种组件平台技术:CORBA(Common Object Request Broker Architecture)、COM+(Compone
近年来随着软件技术的飞速发展,基于构件的软件开发方式已经成为软件工程领域的发展趋势。通过复用已有的构件,软件开发者可以快速构造大型的应用软件,这大大节省开发时间和经费
刀具切削是机械制造业中零件加工的最主要方法,它在机械工业中占有举足轻重的地位。如何提高刀具切削加工的生产效率,降低加工成本,一直是机械加工领域专家们不断探索和致力
生产执行系统MES(Manufacturing Execution System)是面向企业生产管理的新一代信息系统.可重构的MES系统能够通过配置适应外界环境的变化,不仅适用于更多的企业,同时也能够
过程改进技术正成为软件过程的研究热点,而软件过程评估在软件过程改进中的作用至关重要。目前基于CMM和ISO/IEC 15504的这两种评估方法是得到世界公认,使用最广的。但这种评估
DDS(数据分发服务)是一种发布/订阅模型,它主要适用于以数据为中心的系统,而非以服务为中心的系统,即关注于数据而不是过程和服务。它独有的特点使得使用它的环境监控系统都能提高
IEEE将软件测试定义为:使用人工或自动手段来运行或测定某个系统的过程,其目的在于检验它是否满足规定的需求或是弄清预期结果与实际结果之间的差别。作为保证软件质量最为有