论文部分内容阅读
摘 要:数字化信息服务作为图书馆服务的重要组成部分,优化信息检索技术、提高公共图书馆数字化服务水平是图书馆领域一直探讨的问题。网格信息检索技术是利用网格技术具有的强大计算机优势和资源共享优势,为信息检索提供查询调度以及资源管理的服务。网格技术下主题爬虫依照目标主题进行相关的信息搜集、智能处理和分析、满足用户检索需求。其对于信息收集的精准化、信息处理智能化、信息检索高效化、信息知识共享化等特征,在提高图书馆数字化服务中对于信息获取的查全率、查准率、专业性、以及查询速度等方面发挥优化作用。
关键词:网格技术;主题爬虫;图书馆;数字化服务
在信息学中,网格是一种用于集成或共享地理上分布的各种资源,使之成为有机整体,共同完成各种所需任务的机制。网格技术环境中主题爬虫算法兼有网格技术资源搜集与共享的特征,在信息网格平台上,主题爬虫算法主要通过智能化的信息搜集、处理、分析,用以提高公共图书馆数字化服务过程中的信息检索的效能。
一、主体爬虫算法概述
网格服务模式对于解决知识资源的“孤岛”问题,发挥很大作用。其计算有3种类型,即计算网格、信息网格与知识网格,文章主要是结合信息网格进行分析。信息网格同样具有网格的4项优势:第一,打破局限于计算机网络硬件联通的困境,实现应用层面上的联通,资源共享,消除孤岛;第二,信息网络节点的协同配合实现对于同一项目的同时处理;第三,采用国际开放的标准,不再进行集中控制,提高服务质量;第四是动态,可拓展,互联网环境中信息网格实现动态的知识信息更新以及高度的可扩展。
主题爬虫根据目标主题,采用智能化方式从Web上收集主题相关的页面集,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户信息检索需求。根据业务不同,爬虫具有不同类型,本文主要是基于垂直型爬虫的分析。主题爬虫在搜索引擎中主要是具有定位作用的URL来实现对于目标获取,一般经过两个处理步骤:一是将下载到的网页存储到页面库,用于下一步的索引建立;二是将该URL添加到已经读取的URL队列中,从而防止网页反复抓取。主题爬虫抓取的网页可以分为5部分:已经下载的网面集合、已过期网页集合、等待下载的网页集合、可知网页结合、不可知网页集合 。信息网格的优势以及主题爬虫的处理步骤、部分结构、友好特性共同呈现出了对于信息收集精准化、信息处理智能化(主题爬虫采用在线页面重要性计算策略进行页面的抓取,即Online Page Importance Computation,简称OPIC,其实是改进的PageRank算法)、信息检索高效化、信息知识共享化等功能。
二、主题爬虫算法与图书馆数字化服务
图书馆服务数字化是时代发展的必然趋势,主要包括:文献提供服务、参考咨询服务、促进阅读服务、社区活动与社区信息服务、特殊服务。具体表现为信息知识的查全率、查准率、专业性、以及查询速度等。运用主题爬虫算法在实现信息处理的功能时,在优化图书馆更好实现数字化服务的需求方面,表现出独有的技术优势和功能特性(见表1)。
表1 主题爬虫功能类型与公共图书馆数字化服务需求特征
主題爬虫功能类型 公共图书馆数字化服务需求特征
信息收集精准化:垂直型爬虫是针对特定主题、行业的爬虫,它可以实现数据挖掘精确、标准 查准率:检出的相关文献与检出的全部文献的百分比
信息处理智能化:OPIC策略,实现“在线页面重要性计算” 查询速度:获得理想查询结果的速度
信息检索高效化:分步处理、分工、协作 查全率:数据库内检出的相关的信息量与总量的比率
信息知识共享化:友好性,资源调度与管理 专业性:检索出的文献信息专业化程度
三、图书馆数字化服务过程中面临的问题
在图书馆数字化建设的过程中,如何完善数字图书馆的馆藏资源以及打破图书馆数字化资源库之间的界限实现应用层面上的联通,是对于图书馆信息资源更加有效利用的技术突破。此外,图书馆在提供数字化服务过程中,对于知识产权的保护成为了国际学术界和政府管理部门投入较大关注的部分。针对图书馆数字化建设过程中涉及到的知识产权问题,主要是表现在生产、传播、利用三个服务环节。世界各国针对信息资源建设中的知识产权问题都有相应的对策,但是有待于达成共同的认识,形成国际化的标准和共同的理念。
1.图书馆数字化信息资源不全面
在物联网快速发展的助力下,全球各行业都逐渐进入大数据时代。数字化信息资源是数字图书馆存在的核心价值体现以及提供数字化服务的物质基础。传统图书馆数字化建设节奏不断加快,图书馆资源建设主要是以正式出版物为主,网络上的非正式出版物以及公共媒体平台上的用户行为信息、社交过程中的灰色信息和政府非公开的公共管理信息等缺失。图书馆的资源大多是科研文献、基础常识文献、历史小说文献等,这些文献资源呈现出静态、结构化和少量半结构化的状态,致使在这个大数据时代图书馆资源表现出滞后和不完整的问题。
2.图书馆数字化服务制度不健全
图书馆事业的发展需要相应的制度保障,其中图书著作权的保护,是图书馆数字化时代所面临的极具挑战的问题。陈传夫认为法律对推动图书馆事业发展的两种重要的外部力量之一(另一种为科技)。也就是说法律规定下的制度对于集团利益协调起着重要的作用。图书馆数字化建设时代在制度建立方面的缺位导致图书馆数字化服务过程中的不足,如图书馆提供的数字化服务相对单一,一方面是图书馆作为知识信息提供的载体,由于自身数字化知识库建设的不足,导致的无法提供全面系统的知识信息,而使得读者自由阅读权利得不到保障;另一方面则是因为保障制度缺失,图书馆在提供服务,满足用户信息需求过程中,未制定相对统一的提供知识信息的规则,从而直接影响到读者对于知识信息获取权利的实现程度。(网格采用统一的标准进行抓取,通过应用层面的联通,保障知识资源建设的充足以及固定了相对统一的标准,爬虫算法的抓取是遵守非准入抓取的协议,这也就实现了对于知识信息获取统一规则的固定以及保障读者获取信息的公平性) 3.图书馆数字化服务配套技术的不适应
对于图书馆的数字化服务来说,网格科技在图书馆领域的应用,对于提升图书馆的服务来说具有重大而意义。凭借网格技术,使图书馆信息结构得到一定的优化,促使信息文献在最大范围内实现资源的共享,获取更多元的知识信息,实现信息资源的搜集和整合。但是如何实现资源的最大限度的收集?如何快速的进行信息资源的整理以及使得资源整体较为格局化?对于构建网格技术下的图书馆数字化服务而言发挥至关重要的作用。如果采用不适合的技术进行信息的搜集,很可能导致较低的查全率、查准率以及降低无法保障查询的进度等问题。比如,信息搜集过程中的知识产权的侵犯的问题。
4.图书馆数字化服务中的知识产权问题
图书馆在提供服务的过程中知识产权不受保护的现象时有发生。在数字时代,这种图书馆数字化服务中的有关知识产权的问题会进一步的显化,主要体现在图书馆提供的参考咨询、馆际互借、文献传递以及其他的服务等方面。比如,陈敏认为数字参考咨询面临的侵权问题更加的复杂,涉及到用户需求的接受和使用、答案的组织和编排以及答案的提交和传递全过程;郑惠伶指出知识产权风险已经成为制约馆际互借服务开展的关键性问题。所以,图书馆数字化服务中知识产权问题对于图书馆数字化服务的实现起着至关重要的作用。如果不能妥善处理知识产权问题,那么对于知识生产以及传递将面临一定的阻碍,对于实现数字化图书馆的建设而言也是非常大的绊脚石。
四、主题爬虫算法对于图书馆数字化服务的优化
网格技术下主题爬虫算法通过优化图书馆数字化服务建设,从而实现对于图书馆数字化服务水平的提高。主题爬虫在搜索引擎中主要是具有定位作用的URL来实现对于目标获取,并对获取的信息进行格局化分类,利用自身友好性以及爬虫算法架构的特征属性实现对于知识产权保护,充分发挥信息收集精准化、信息处理智能化、信息检索高效化、信息知识共享化等功能优势,对于解决图书馆数字化服务中由于数字信息资源的不足、服务制度不健全导致较低的查全率、查准率以及由于技术不配套、知识产权风险等问题导致的查询进度缓慢和专业程度不高的现象发挥重要作用。
1.主题爬虫算法精准收集提高查准率
数字图书馆网格环境下主题爬虫算法对于资源收集的功能优势,实现资源整合,提高了用户对信息供给与需求的匹配度,主要体现在资源的内容、形式、载体等方面。主题爬虫算法主要是根据目标主题为用户提供信息查询方面的服务。首先,以智能化方式从Web上收集与目标主题相关页面,实现资源整合;其次,借助信息检索或者机器学习的方法对已经收集到信息进行智能化信息处理与分析;最后,用户以最为方便、有效的检索方式获取满足信息检索需求页面。根据主体业务的不同,采用垂直型的爬虫算法而言,在上文提到抓取的两步骤里面,主要是通过利用URL,有效的避免重复,并通过五部分分类,准确分析信息抓取的全面与否。主题爬虫算法通过实现数据挖掘精确、标准更好的满足了图书馆数字化服务用户对于查找文献的查全率需求。比如,信息资源表现形式上,针对同一个主题可以同时搜集到有关呈现出音频、文字、图像等不同形式的信息资源。
2.主题爬虫算法信息处理智能化提升查询速度
借助Internet进行信息搜集,仅实现把相关信息进行相互关联,并进行粗略加工,但网格技术下的主题爬虫算法是利用其功能属性特征发挥信息处理智能化优势。通过对读者所需文献信息开展主题性搜索与解析,主题爬虫在进行抓取过程中采用OPIC即“在线页面重要性计算”,具有针对性的获得具有高匹配度的文献信息,然后利用网格技术实现应用层面上联通,从而保障信息能够跨越界限的被用户接收到。
3.主题爬虫算法信息检索高效化保障查全率
数字图书馆建设过程中不仅实现文本知识的数字化,还实现可视化图书资源的被检索,用户借助主题爬虫算法能在较短时间里完成文献信息的整合管理,从而实现供给文献资源的全面性。主题爬虫算法在进行资源抓取的过程中采用的模式是分工协作,即一台主机,其余机器负责不同主题的搜集,分工分布的处理,保障信息搜集的专业性以及高效性。当读者通过网格对图书以及文献信息进行搜查时,通过解析信息需求的主题与已分配的主机进行匹配,便能快速实现信息快速的查询。
4.主题爬虫算法信息知识共享化提升专业度
数字图书馆本身不仅仅具有基于互联网背景下实体的联通,还具有基于网格技术下应用层面的联通。构建信息知识网格使书籍以及信息资源能够达成共享以及防范任意形式的信息资源不相互关联(除法律或者相关协议约定禁止的信息资源)。采用网格技术前提是有统一的转入和识别的标准,在此基础上便可以突破过往对于异构知识不能共享的局面,同时对于网格所联通的数字资源库以及专家资源而言,相互能够提供更加专业和权威的资源。如果提供资源的范围是局限的,那么所提供资源的可靠性以及专业性就有待考究。主题爬虫算法基于友好性的特征,在保护知识产权的前提下,对于拒绝访问的信息资源会很好遵守协议,从而保障信息资源获取合法性以及知识信息合理调度和管理,突破资源共享受限的障碍。
5.主题爬虫算法在搜索引擎下更垂直准确的应用
“通过网络爬虫目标是尽可能地采集信息页面,而在这一过程中,它并不在意信息页的顺序和被采集页面的相关主题。这需要消耗相当多的系统资源和网络宽带,并且对于这些资源的销号并没有换来采集页的较高利用率。主题爬虫则是尽可能快地爬行,采集尽可能多的与预先定义好的主题相关的网页。主题爬虫可以通过整个网络主题分别采集,并将不同采集整合在一起,以提高整个网络采集的覆盖率和页面利用率。
网络的抓取策略可以分为深度优先、广度优先和最佳优先三种。传统的网络爬虫是按照预先设定的广度优先策略、深度优先策略这两种优先策略相结合的方式爬行网页。这种爬行方式的特点是爬虫按照预先设定的爬行深度爬行网页,它不会理会网页的内容,当爬虫爬行到给定的蛇毒时,爬虫停止工作。所以它搜集到的信息比较全,但是它爬行慢,有许多无效网页。
那么,最佳的优先搜集策略按照一定的网页分析算法,预测侯选URL和计算文本内容与目标网页相似度或与主题的相关性,并获取评价最好的一个或几个URL进行抓取,它只访问经过网页分析算法预测为“重要”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页会被忽略,因为最优先策略是一种局部最优的搜索算法。所以需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。研究表明,这样闭环调整可以将无关网页数降低30%--90%.”
五、小结
网格环境下的数字图书馆是采用统一标准和规范,利用先进的网格技术构建统一、透明、高效的信息资源共享系统,实现图书馆资源數字化和服务的互联互通。图书馆服务数字化是基于互联网时代背景下满足用户需求的必然趋势,网格技术下爬虫算法的功能优势能够在一定程度上解决数字化服务过程中的问题,优化图书馆数字化服务从而提高数字化服务的水平。但从图书馆数字化服务制度的不完善以及网格技术实现存在一定障碍而言,主题爬虫算法在图书馆数字化服务中得到实现,需要进一步的研究网格技术如何充分发挥其属性特征以及主题爬虫算法如何从网页抓取到数字图书馆知识库的知识抓取等问题。
参考文献:
[1]“科普中国”百科科学词条编写与应用工作项目.网格. [EB/OL].[2017-10-15].https://baike.baidu.com/item/%E7%BD%91%E6%A0%BC/265734?fr=aladdin.
[2]龚 强.关于网格特征的研究[]].信息技术,2004
[3]朱玉丽.基于网格技术的主题爬虫算法优化的研究与实现[D].沈阳工业大学,2007
(作者单位:黑龙江大学图书馆)
关键词:网格技术;主题爬虫;图书馆;数字化服务
在信息学中,网格是一种用于集成或共享地理上分布的各种资源,使之成为有机整体,共同完成各种所需任务的机制。网格技术环境中主题爬虫算法兼有网格技术资源搜集与共享的特征,在信息网格平台上,主题爬虫算法主要通过智能化的信息搜集、处理、分析,用以提高公共图书馆数字化服务过程中的信息检索的效能。
一、主体爬虫算法概述
网格服务模式对于解决知识资源的“孤岛”问题,发挥很大作用。其计算有3种类型,即计算网格、信息网格与知识网格,文章主要是结合信息网格进行分析。信息网格同样具有网格的4项优势:第一,打破局限于计算机网络硬件联通的困境,实现应用层面上的联通,资源共享,消除孤岛;第二,信息网络节点的协同配合实现对于同一项目的同时处理;第三,采用国际开放的标准,不再进行集中控制,提高服务质量;第四是动态,可拓展,互联网环境中信息网格实现动态的知识信息更新以及高度的可扩展。
主题爬虫根据目标主题,采用智能化方式从Web上收集主题相关的页面集,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户信息检索需求。根据业务不同,爬虫具有不同类型,本文主要是基于垂直型爬虫的分析。主题爬虫在搜索引擎中主要是具有定位作用的URL来实现对于目标获取,一般经过两个处理步骤:一是将下载到的网页存储到页面库,用于下一步的索引建立;二是将该URL添加到已经读取的URL队列中,从而防止网页反复抓取。主题爬虫抓取的网页可以分为5部分:已经下载的网面集合、已过期网页集合、等待下载的网页集合、可知网页结合、不可知网页集合 。信息网格的优势以及主题爬虫的处理步骤、部分结构、友好特性共同呈现出了对于信息收集精准化、信息处理智能化(主题爬虫采用在线页面重要性计算策略进行页面的抓取,即Online Page Importance Computation,简称OPIC,其实是改进的PageRank算法)、信息检索高效化、信息知识共享化等功能。
二、主题爬虫算法与图书馆数字化服务
图书馆服务数字化是时代发展的必然趋势,主要包括:文献提供服务、参考咨询服务、促进阅读服务、社区活动与社区信息服务、特殊服务。具体表现为信息知识的查全率、查准率、专业性、以及查询速度等。运用主题爬虫算法在实现信息处理的功能时,在优化图书馆更好实现数字化服务的需求方面,表现出独有的技术优势和功能特性(见表1)。
表1 主题爬虫功能类型与公共图书馆数字化服务需求特征
主題爬虫功能类型 公共图书馆数字化服务需求特征
信息收集精准化:垂直型爬虫是针对特定主题、行业的爬虫,它可以实现数据挖掘精确、标准 查准率:检出的相关文献与检出的全部文献的百分比
信息处理智能化:OPIC策略,实现“在线页面重要性计算” 查询速度:获得理想查询结果的速度
信息检索高效化:分步处理、分工、协作 查全率:数据库内检出的相关的信息量与总量的比率
信息知识共享化:友好性,资源调度与管理 专业性:检索出的文献信息专业化程度
三、图书馆数字化服务过程中面临的问题
在图书馆数字化建设的过程中,如何完善数字图书馆的馆藏资源以及打破图书馆数字化资源库之间的界限实现应用层面上的联通,是对于图书馆信息资源更加有效利用的技术突破。此外,图书馆在提供数字化服务过程中,对于知识产权的保护成为了国际学术界和政府管理部门投入较大关注的部分。针对图书馆数字化建设过程中涉及到的知识产权问题,主要是表现在生产、传播、利用三个服务环节。世界各国针对信息资源建设中的知识产权问题都有相应的对策,但是有待于达成共同的认识,形成国际化的标准和共同的理念。
1.图书馆数字化信息资源不全面
在物联网快速发展的助力下,全球各行业都逐渐进入大数据时代。数字化信息资源是数字图书馆存在的核心价值体现以及提供数字化服务的物质基础。传统图书馆数字化建设节奏不断加快,图书馆资源建设主要是以正式出版物为主,网络上的非正式出版物以及公共媒体平台上的用户行为信息、社交过程中的灰色信息和政府非公开的公共管理信息等缺失。图书馆的资源大多是科研文献、基础常识文献、历史小说文献等,这些文献资源呈现出静态、结构化和少量半结构化的状态,致使在这个大数据时代图书馆资源表现出滞后和不完整的问题。
2.图书馆数字化服务制度不健全
图书馆事业的发展需要相应的制度保障,其中图书著作权的保护,是图书馆数字化时代所面临的极具挑战的问题。陈传夫认为法律对推动图书馆事业发展的两种重要的外部力量之一(另一种为科技)。也就是说法律规定下的制度对于集团利益协调起着重要的作用。图书馆数字化建设时代在制度建立方面的缺位导致图书馆数字化服务过程中的不足,如图书馆提供的数字化服务相对单一,一方面是图书馆作为知识信息提供的载体,由于自身数字化知识库建设的不足,导致的无法提供全面系统的知识信息,而使得读者自由阅读权利得不到保障;另一方面则是因为保障制度缺失,图书馆在提供服务,满足用户信息需求过程中,未制定相对统一的提供知识信息的规则,从而直接影响到读者对于知识信息获取权利的实现程度。(网格采用统一的标准进行抓取,通过应用层面的联通,保障知识资源建设的充足以及固定了相对统一的标准,爬虫算法的抓取是遵守非准入抓取的协议,这也就实现了对于知识信息获取统一规则的固定以及保障读者获取信息的公平性) 3.图书馆数字化服务配套技术的不适应
对于图书馆的数字化服务来说,网格科技在图书馆领域的应用,对于提升图书馆的服务来说具有重大而意义。凭借网格技术,使图书馆信息结构得到一定的优化,促使信息文献在最大范围内实现资源的共享,获取更多元的知识信息,实现信息资源的搜集和整合。但是如何实现资源的最大限度的收集?如何快速的进行信息资源的整理以及使得资源整体较为格局化?对于构建网格技术下的图书馆数字化服务而言发挥至关重要的作用。如果采用不适合的技术进行信息的搜集,很可能导致较低的查全率、查准率以及降低无法保障查询的进度等问题。比如,信息搜集过程中的知识产权的侵犯的问题。
4.图书馆数字化服务中的知识产权问题
图书馆在提供服务的过程中知识产权不受保护的现象时有发生。在数字时代,这种图书馆数字化服务中的有关知识产权的问题会进一步的显化,主要体现在图书馆提供的参考咨询、馆际互借、文献传递以及其他的服务等方面。比如,陈敏认为数字参考咨询面临的侵权问题更加的复杂,涉及到用户需求的接受和使用、答案的组织和编排以及答案的提交和传递全过程;郑惠伶指出知识产权风险已经成为制约馆际互借服务开展的关键性问题。所以,图书馆数字化服务中知识产权问题对于图书馆数字化服务的实现起着至关重要的作用。如果不能妥善处理知识产权问题,那么对于知识生产以及传递将面临一定的阻碍,对于实现数字化图书馆的建设而言也是非常大的绊脚石。
四、主题爬虫算法对于图书馆数字化服务的优化
网格技术下主题爬虫算法通过优化图书馆数字化服务建设,从而实现对于图书馆数字化服务水平的提高。主题爬虫在搜索引擎中主要是具有定位作用的URL来实现对于目标获取,并对获取的信息进行格局化分类,利用自身友好性以及爬虫算法架构的特征属性实现对于知识产权保护,充分发挥信息收集精准化、信息处理智能化、信息检索高效化、信息知识共享化等功能优势,对于解决图书馆数字化服务中由于数字信息资源的不足、服务制度不健全导致较低的查全率、查准率以及由于技术不配套、知识产权风险等问题导致的查询进度缓慢和专业程度不高的现象发挥重要作用。
1.主题爬虫算法精准收集提高查准率
数字图书馆网格环境下主题爬虫算法对于资源收集的功能优势,实现资源整合,提高了用户对信息供给与需求的匹配度,主要体现在资源的内容、形式、载体等方面。主题爬虫算法主要是根据目标主题为用户提供信息查询方面的服务。首先,以智能化方式从Web上收集与目标主题相关页面,实现资源整合;其次,借助信息检索或者机器学习的方法对已经收集到信息进行智能化信息处理与分析;最后,用户以最为方便、有效的检索方式获取满足信息检索需求页面。根据主体业务的不同,采用垂直型的爬虫算法而言,在上文提到抓取的两步骤里面,主要是通过利用URL,有效的避免重复,并通过五部分分类,准确分析信息抓取的全面与否。主题爬虫算法通过实现数据挖掘精确、标准更好的满足了图书馆数字化服务用户对于查找文献的查全率需求。比如,信息资源表现形式上,针对同一个主题可以同时搜集到有关呈现出音频、文字、图像等不同形式的信息资源。
2.主题爬虫算法信息处理智能化提升查询速度
借助Internet进行信息搜集,仅实现把相关信息进行相互关联,并进行粗略加工,但网格技术下的主题爬虫算法是利用其功能属性特征发挥信息处理智能化优势。通过对读者所需文献信息开展主题性搜索与解析,主题爬虫在进行抓取过程中采用OPIC即“在线页面重要性计算”,具有针对性的获得具有高匹配度的文献信息,然后利用网格技术实现应用层面上联通,从而保障信息能够跨越界限的被用户接收到。
3.主题爬虫算法信息检索高效化保障查全率
数字图书馆建设过程中不仅实现文本知识的数字化,还实现可视化图书资源的被检索,用户借助主题爬虫算法能在较短时间里完成文献信息的整合管理,从而实现供给文献资源的全面性。主题爬虫算法在进行资源抓取的过程中采用的模式是分工协作,即一台主机,其余机器负责不同主题的搜集,分工分布的处理,保障信息搜集的专业性以及高效性。当读者通过网格对图书以及文献信息进行搜查时,通过解析信息需求的主题与已分配的主机进行匹配,便能快速实现信息快速的查询。
4.主题爬虫算法信息知识共享化提升专业度
数字图书馆本身不仅仅具有基于互联网背景下实体的联通,还具有基于网格技术下应用层面的联通。构建信息知识网格使书籍以及信息资源能够达成共享以及防范任意形式的信息资源不相互关联(除法律或者相关协议约定禁止的信息资源)。采用网格技术前提是有统一的转入和识别的标准,在此基础上便可以突破过往对于异构知识不能共享的局面,同时对于网格所联通的数字资源库以及专家资源而言,相互能够提供更加专业和权威的资源。如果提供资源的范围是局限的,那么所提供资源的可靠性以及专业性就有待考究。主题爬虫算法基于友好性的特征,在保护知识产权的前提下,对于拒绝访问的信息资源会很好遵守协议,从而保障信息资源获取合法性以及知识信息合理调度和管理,突破资源共享受限的障碍。
5.主题爬虫算法在搜索引擎下更垂直准确的应用
“通过网络爬虫目标是尽可能地采集信息页面,而在这一过程中,它并不在意信息页的顺序和被采集页面的相关主题。这需要消耗相当多的系统资源和网络宽带,并且对于这些资源的销号并没有换来采集页的较高利用率。主题爬虫则是尽可能快地爬行,采集尽可能多的与预先定义好的主题相关的网页。主题爬虫可以通过整个网络主题分别采集,并将不同采集整合在一起,以提高整个网络采集的覆盖率和页面利用率。
网络的抓取策略可以分为深度优先、广度优先和最佳优先三种。传统的网络爬虫是按照预先设定的广度优先策略、深度优先策略这两种优先策略相结合的方式爬行网页。这种爬行方式的特点是爬虫按照预先设定的爬行深度爬行网页,它不会理会网页的内容,当爬虫爬行到给定的蛇毒时,爬虫停止工作。所以它搜集到的信息比较全,但是它爬行慢,有许多无效网页。
那么,最佳的优先搜集策略按照一定的网页分析算法,预测侯选URL和计算文本内容与目标网页相似度或与主题的相关性,并获取评价最好的一个或几个URL进行抓取,它只访问经过网页分析算法预测为“重要”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页会被忽略,因为最优先策略是一种局部最优的搜索算法。所以需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。研究表明,这样闭环调整可以将无关网页数降低30%--90%.”
五、小结
网格环境下的数字图书馆是采用统一标准和规范,利用先进的网格技术构建统一、透明、高效的信息资源共享系统,实现图书馆资源數字化和服务的互联互通。图书馆服务数字化是基于互联网时代背景下满足用户需求的必然趋势,网格技术下爬虫算法的功能优势能够在一定程度上解决数字化服务过程中的问题,优化图书馆数字化服务从而提高数字化服务的水平。但从图书馆数字化服务制度的不完善以及网格技术实现存在一定障碍而言,主题爬虫算法在图书馆数字化服务中得到实现,需要进一步的研究网格技术如何充分发挥其属性特征以及主题爬虫算法如何从网页抓取到数字图书馆知识库的知识抓取等问题。
参考文献:
[1]“科普中国”百科科学词条编写与应用工作项目.网格. [EB/OL].[2017-10-15].https://baike.baidu.com/item/%E7%BD%91%E6%A0%BC/265734?fr=aladdin.
[2]龚 强.关于网格特征的研究[]].信息技术,2004
[3]朱玉丽.基于网格技术的主题爬虫算法优化的研究与实现[D].沈阳工业大学,2007
(作者单位:黑龙江大学图书馆)