优化图书馆数字化服务的途径分析

来源 :兰台内外 | 被引量 : 0次 | 上传用户:oyfj2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:数字化信息服务作为图书馆服务的重要组成部分,优化信息检索技术、提高公共图书馆数字化服务水平是图书馆领域一直探讨的问题。网格信息检索技术是利用网格技术具有的强大计算机优势和资源共享优势,为信息检索提供查询调度以及资源管理的服务。网格技术下主题爬虫依照目标主题进行相关的信息搜集、智能处理和分析、满足用户检索需求。其对于信息收集的精准化、信息处理智能化、信息检索高效化、信息知识共享化等特征,在提高图书馆数字化服务中对于信息获取的查全率、查准率、专业性、以及查询速度等方面发挥优化作用。
  关键词:网格技术;主题爬虫;图书馆;数字化服务
  在信息学中,网格是一种用于集成或共享地理上分布的各种资源,使之成为有机整体,共同完成各种所需任务的机制。网格技术环境中主题爬虫算法兼有网格技术资源搜集与共享的特征,在信息网格平台上,主题爬虫算法主要通过智能化的信息搜集、处理、分析,用以提高公共图书馆数字化服务过程中的信息检索的效能。
  一、主体爬虫算法概述
  网格服务模式对于解决知识资源的“孤岛”问题,发挥很大作用。其计算有3种类型,即计算网格、信息网格与知识网格,文章主要是结合信息网格进行分析。信息网格同样具有网格的4项优势:第一,打破局限于计算机网络硬件联通的困境,实现应用层面上的联通,资源共享,消除孤岛;第二,信息网络节点的协同配合实现对于同一项目的同时处理;第三,采用国际开放的标准,不再进行集中控制,提高服务质量;第四是动态,可拓展,互联网环境中信息网格实现动态的知识信息更新以及高度的可扩展。
  主题爬虫根据目标主题,采用智能化方式从Web上收集主题相关的页面集,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户信息检索需求。根据业务不同,爬虫具有不同类型,本文主要是基于垂直型爬虫的分析。主题爬虫在搜索引擎中主要是具有定位作用的URL来实现对于目标获取,一般经过两个处理步骤:一是将下载到的网页存储到页面库,用于下一步的索引建立;二是将该URL添加到已经读取的URL队列中,从而防止网页反复抓取。主题爬虫抓取的网页可以分为5部分:已经下载的网面集合、已过期网页集合、等待下载的网页集合、可知网页结合、不可知网页集合 。信息网格的优势以及主题爬虫的处理步骤、部分结构、友好特性共同呈现出了对于信息收集精准化、信息处理智能化(主题爬虫采用在线页面重要性计算策略进行页面的抓取,即Online Page Importance Computation,简称OPIC,其实是改进的PageRank算法)、信息检索高效化、信息知识共享化等功能。
  二、主题爬虫算法与图书馆数字化服务
  图书馆服务数字化是时代发展的必然趋势,主要包括:文献提供服务、参考咨询服务、促进阅读服务、社区活动与社区信息服务、特殊服务。具体表现为信息知识的查全率、查准率、专业性、以及查询速度等。运用主题爬虫算法在实现信息处理的功能时,在优化图书馆更好实现数字化服务的需求方面,表现出独有的技术优势和功能特性(见表1)。
  表1 主题爬虫功能类型与公共图书馆数字化服务需求特征
  主題爬虫功能类型 公共图书馆数字化服务需求特征
  信息收集精准化:垂直型爬虫是针对特定主题、行业的爬虫,它可以实现数据挖掘精确、标准 查准率:检出的相关文献与检出的全部文献的百分比
  信息处理智能化:OPIC策略,实现“在线页面重要性计算” 查询速度:获得理想查询结果的速度
  信息检索高效化:分步处理、分工、协作 查全率:数据库内检出的相关的信息量与总量的比率
  信息知识共享化:友好性,资源调度与管理 专业性:检索出的文献信息专业化程度
  三、图书馆数字化服务过程中面临的问题
  在图书馆数字化建设的过程中,如何完善数字图书馆的馆藏资源以及打破图书馆数字化资源库之间的界限实现应用层面上的联通,是对于图书馆信息资源更加有效利用的技术突破。此外,图书馆在提供数字化服务过程中,对于知识产权的保护成为了国际学术界和政府管理部门投入较大关注的部分。针对图书馆数字化建设过程中涉及到的知识产权问题,主要是表现在生产、传播、利用三个服务环节。世界各国针对信息资源建设中的知识产权问题都有相应的对策,但是有待于达成共同的认识,形成国际化的标准和共同的理念。
  1.图书馆数字化信息资源不全面
  在物联网快速发展的助力下,全球各行业都逐渐进入大数据时代。数字化信息资源是数字图书馆存在的核心价值体现以及提供数字化服务的物质基础。传统图书馆数字化建设节奏不断加快,图书馆资源建设主要是以正式出版物为主,网络上的非正式出版物以及公共媒体平台上的用户行为信息、社交过程中的灰色信息和政府非公开的公共管理信息等缺失。图书馆的资源大多是科研文献、基础常识文献、历史小说文献等,这些文献资源呈现出静态、结构化和少量半结构化的状态,致使在这个大数据时代图书馆资源表现出滞后和不完整的问题。
  2.图书馆数字化服务制度不健全
  图书馆事业的发展需要相应的制度保障,其中图书著作权的保护,是图书馆数字化时代所面临的极具挑战的问题。陈传夫认为法律对推动图书馆事业发展的两种重要的外部力量之一(另一种为科技)。也就是说法律规定下的制度对于集团利益协调起着重要的作用。图书馆数字化建设时代在制度建立方面的缺位导致图书馆数字化服务过程中的不足,如图书馆提供的数字化服务相对单一,一方面是图书馆作为知识信息提供的载体,由于自身数字化知识库建设的不足,导致的无法提供全面系统的知识信息,而使得读者自由阅读权利得不到保障;另一方面则是因为保障制度缺失,图书馆在提供服务,满足用户信息需求过程中,未制定相对统一的提供知识信息的规则,从而直接影响到读者对于知识信息获取权利的实现程度。(网格采用统一的标准进行抓取,通过应用层面的联通,保障知识资源建设的充足以及固定了相对统一的标准,爬虫算法的抓取是遵守非准入抓取的协议,这也就实现了对于知识信息获取统一规则的固定以及保障读者获取信息的公平性)   3.图书馆数字化服务配套技术的不适应
  对于图书馆的数字化服务来说,网格科技在图书馆领域的应用,对于提升图书馆的服务来说具有重大而意义。凭借网格技术,使图书馆信息结构得到一定的优化,促使信息文献在最大范围内实现资源的共享,获取更多元的知识信息,实现信息资源的搜集和整合。但是如何实现资源的最大限度的收集?如何快速的进行信息资源的整理以及使得资源整体较为格局化?对于构建网格技术下的图书馆数字化服务而言发挥至关重要的作用。如果采用不适合的技术进行信息的搜集,很可能导致较低的查全率、查准率以及降低无法保障查询的进度等问题。比如,信息搜集过程中的知识产权的侵犯的问题。
  4.图书馆数字化服务中的知识产权问题
  图书馆在提供服务的过程中知识产权不受保护的现象时有发生。在数字时代,这种图书馆数字化服务中的有关知识产权的问题会进一步的显化,主要体现在图书馆提供的参考咨询、馆际互借、文献传递以及其他的服务等方面。比如,陈敏认为数字参考咨询面临的侵权问题更加的复杂,涉及到用户需求的接受和使用、答案的组织和编排以及答案的提交和传递全过程;郑惠伶指出知识产权风险已经成为制约馆际互借服务开展的关键性问题。所以,图书馆数字化服务中知识产权问题对于图书馆数字化服务的实现起着至关重要的作用。如果不能妥善处理知识产权问题,那么对于知识生产以及传递将面临一定的阻碍,对于实现数字化图书馆的建设而言也是非常大的绊脚石。
  四、主题爬虫算法对于图书馆数字化服务的优化
  网格技术下主题爬虫算法通过优化图书馆数字化服务建设,从而实现对于图书馆数字化服务水平的提高。主题爬虫在搜索引擎中主要是具有定位作用的URL来实现对于目标获取,并对获取的信息进行格局化分类,利用自身友好性以及爬虫算法架构的特征属性实现对于知识产权保护,充分发挥信息收集精准化、信息处理智能化、信息检索高效化、信息知识共享化等功能优势,对于解决图书馆数字化服务中由于数字信息资源的不足、服务制度不健全导致较低的查全率、查准率以及由于技术不配套、知识产权风险等问题导致的查询进度缓慢和专业程度不高的现象发挥重要作用。
  1.主题爬虫算法精准收集提高查准率
  数字图书馆网格环境下主题爬虫算法对于资源收集的功能优势,实现资源整合,提高了用户对信息供给与需求的匹配度,主要体现在资源的内容、形式、载体等方面。主题爬虫算法主要是根据目标主题为用户提供信息查询方面的服务。首先,以智能化方式从Web上收集与目标主题相关页面,实现资源整合;其次,借助信息检索或者机器学习的方法对已经收集到信息进行智能化信息处理与分析;最后,用户以最为方便、有效的检索方式获取满足信息检索需求页面。根据主体业务的不同,采用垂直型的爬虫算法而言,在上文提到抓取的两步骤里面,主要是通过利用URL,有效的避免重复,并通过五部分分类,准确分析信息抓取的全面与否。主题爬虫算法通过实现数据挖掘精确、标准更好的满足了图书馆数字化服务用户对于查找文献的查全率需求。比如,信息资源表现形式上,针对同一个主题可以同时搜集到有关呈现出音频、文字、图像等不同形式的信息资源。
  2.主题爬虫算法信息处理智能化提升查询速度
  借助Internet进行信息搜集,仅实现把相关信息进行相互关联,并进行粗略加工,但网格技术下的主题爬虫算法是利用其功能属性特征发挥信息处理智能化优势。通过对读者所需文献信息开展主题性搜索与解析,主题爬虫在进行抓取过程中采用OPIC即“在线页面重要性计算”,具有针对性的获得具有高匹配度的文献信息,然后利用网格技术实现应用层面上联通,从而保障信息能够跨越界限的被用户接收到。
  3.主题爬虫算法信息检索高效化保障查全率
  数字图书馆建设过程中不仅实现文本知识的数字化,还实现可视化图书资源的被检索,用户借助主题爬虫算法能在较短时间里完成文献信息的整合管理,从而实现供给文献资源的全面性。主题爬虫算法在进行资源抓取的过程中采用的模式是分工协作,即一台主机,其余机器负责不同主题的搜集,分工分布的处理,保障信息搜集的专业性以及高效性。当读者通过网格对图书以及文献信息进行搜查时,通过解析信息需求的主题与已分配的主机进行匹配,便能快速实现信息快速的查询。
  4.主题爬虫算法信息知识共享化提升专业度
  数字图书馆本身不仅仅具有基于互联网背景下实体的联通,还具有基于网格技术下应用层面的联通。构建信息知识网格使书籍以及信息资源能够达成共享以及防范任意形式的信息资源不相互关联(除法律或者相关协议约定禁止的信息资源)。采用网格技术前提是有统一的转入和识别的标准,在此基础上便可以突破过往对于异构知识不能共享的局面,同时对于网格所联通的数字资源库以及专家资源而言,相互能够提供更加专业和权威的资源。如果提供资源的范围是局限的,那么所提供资源的可靠性以及专业性就有待考究。主题爬虫算法基于友好性的特征,在保护知识产权的前提下,对于拒绝访问的信息资源会很好遵守协议,从而保障信息资源获取合法性以及知识信息合理调度和管理,突破资源共享受限的障碍。
  5.主题爬虫算法在搜索引擎下更垂直准确的应用
  “通过网络爬虫目标是尽可能地采集信息页面,而在这一过程中,它并不在意信息页的顺序和被采集页面的相关主题。这需要消耗相当多的系统资源和网络宽带,并且对于这些资源的销号并没有换来采集页的较高利用率。主题爬虫则是尽可能快地爬行,采集尽可能多的与预先定义好的主题相关的网页。主题爬虫可以通过整个网络主题分别采集,并将不同采集整合在一起,以提高整个网络采集的覆盖率和页面利用率。
  网络的抓取策略可以分为深度优先、广度优先和最佳优先三种。传统的网络爬虫是按照预先设定的广度优先策略、深度优先策略这两种优先策略相结合的方式爬行网页。这种爬行方式的特点是爬虫按照预先设定的爬行深度爬行网页,它不会理会网页的内容,当爬虫爬行到给定的蛇毒时,爬虫停止工作。所以它搜集到的信息比较全,但是它爬行慢,有许多无效网页。
  那么,最佳的优先搜集策略按照一定的网页分析算法,预测侯选URL和计算文本内容与目标网页相似度或与主题的相关性,并获取评价最好的一个或几个URL进行抓取,它只访问经过网页分析算法预测为“重要”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页会被忽略,因为最优先策略是一种局部最优的搜索算法。所以需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。研究表明,这样闭环调整可以将无关网页数降低30%--90%.”
  五、小结
  网格环境下的数字图书馆是采用统一标准和规范,利用先进的网格技术构建统一、透明、高效的信息资源共享系统,实现图书馆资源數字化和服务的互联互通。图书馆服务数字化是基于互联网时代背景下满足用户需求的必然趋势,网格技术下爬虫算法的功能优势能够在一定程度上解决数字化服务过程中的问题,优化图书馆数字化服务从而提高数字化服务的水平。但从图书馆数字化服务制度的不完善以及网格技术实现存在一定障碍而言,主题爬虫算法在图书馆数字化服务中得到实现,需要进一步的研究网格技术如何充分发挥其属性特征以及主题爬虫算法如何从网页抓取到数字图书馆知识库的知识抓取等问题。
  参考文献:
  [1]“科普中国”百科科学词条编写与应用工作项目.网格. [EB/OL].[2017-10-15].https://baike.baidu.com/item/%E7%BD%91%E6%A0%BC/265734?fr=aladdin.
  [2]龚 强.关于网格特征的研究[]].信息技术,2004
  [3]朱玉丽.基于网格技术的主题爬虫算法优化的研究与实现[D].沈阳工业大学,2007
  (作者单位:黑龙江大学图书馆)
其他文献
摘 要:撰写著述一家主流报媒的历史,收集资料是一项基础工作。那么资料情报部门应遵循哪些搜集坐标,实事求是,周密布局?以《深圳特区报》为例,专题分析、疑难追踪、远程配合、资料校验等4个坐标,明确这种科研课题的推进标识,像前行的灯塔映照收集资料的方向。主流报媒史料搜寻的四条主线则是:第一,顺应主流报媒历史立体研究的主线,去收集丰富资料;第二,按照这份报纸发展脉络的时限主线,去搜寻专题资料;第三,遵循编
期刊
摘 要:高校教学工作的重要内容包括文化传承。高校档案馆不仅记载学校历史,并且在文化教育方面发挥重要作用。本文主要探讨了如何定义高校档案馆的文化功能,当前档案馆文化功能的实践情况和实现档案文化功能的途径。  关键词:高校档案馆;文化;档案馆功能  一、档案馆文化的记忆、传播、教育功能  《高等学校档案实体分类法与高等学校档案工作规范》指出高等学校档案部门的业务负责收集、征集、整理、分类、鉴定、保管、
期刊
摘 要:为提高大学生健康信息素养水平,本文以地方性高校图书馆为研究对象,采用SWOT模型进行分析,从素养教育、资源建设、服务模式、馆员培训、合作联盟等五个方面探讨提升大学生健康信息素养的新路径。  关键词:高校图书馆;健康信息素养;信息素养;大学生;地方性  信息素养是能够使人更有效地选择、查找及评估传统或网络资源,是信息社会的一种能力。这种能力包括如何寻找所需的信息及利用其解决问题并进行有效决策
期刊
摘 要:图书馆是为人们提供知识和信息的重要场所,高校图书馆则主要服务于学生。目前,对于高校图书馆如何更好的服务于学生成为研究的重要内容,也是高校图书馆的重点任务。本文是从应用型本科院校图书馆空间构建中环境建设的角度出发,对齐齐哈尔工程学院图书馆的环境进行优化及改造,从而为学生提供更丰富更便利的学习条件,创建更加完善的图书馆学习空间。  关键词:应用型本科;图书馆;环境建设  一、引言  图书馆是支
期刊
摘 要:[目的/意义]信息技术发展给高校图书馆数字阅览室的服务带来极大冲击,智能工具精彩纷呈的情况下,如何改善现有数字阅览室服务模式,达到提高数字阅览室利用率以及实现创新服务提供借鉴。[方法/过程]通过实地走访校内外潜在的用户,开展跨部门融合发展、横向课题合作模式的创新服务。[结果/结论]提高了图书馆融入教学、提升社会教育服务的职能,为高校图书馆数字阅览室服务创新提供实践借鉴。  关键词:融合发展
期刊
摘 要:本文梳理了国内公共图书馆音乐馆的发展概况和存在问题,以深圳图书馆音乐馆为例,探讨了四点做法与发展中的启示。  关键词:公共图书馆音乐馆;文化服务  一、国内公共图书馆音乐馆概况  公共图书馆作为重要的公共文化服务阵地,更是一所“没有围墙的大学”,供读者在此学习充电,汲取知识的养分。随着“互联网+”时代已经到来,图书馆已由单一的借阅模式,转变为多元的服务模式。为扩展图书馆的服务业务,提升服务
期刊
摘 要:本文通过深入对比国内外专业图书馆知识服务实践,总结出新时期我国专业图书馆知识服务创新策略。  关键词:知识服务;图书馆知识服务;图书馆服务创新;公共图书馆  随着新事物不断涌现、新技术不断升级,以往与传统知识资源的搜集、组织、加工、分析、整合、传播、利用与推广等相关联的一系列服务模式,在全新的学术信息载体、学术交流与传播的方式方法、学术研究与应用的参与方式的助推下发生了前所未有的改变。  
期刊
摘 要:地方志以档案为基础,是一种以记载区域性地情信息资料为核心的重要载体,具有独特历史文化学术价值。我国官修方志由来已久,尤其是明清两代,在中央和地方政府出台的一系列政令、法规的积极推动下,辽宁地区的官修方志事业取得了很大的成绩,充分证明依法治志是中国历代官修方志工作模式在新的社会环境中发展出来的更好实现形式,突出反映了地方志立法的重要性。  关键词:明清;辽宁;官修方志;立法  方志来源于档案
期刊
摘 要:随着互联网的快速发展,自媒体平台应运而生,网络直播、小视频等蓬勃发展,引发了信息传播的巨大转变,也引起了图书馆界的关注和思考。本文分析了基层公共图书馆阅读推广中信息传播的现状,说明了直播、小视频等新方式的优点和可行性,探讨了利用自媒体平台融合新方式进行阅读推广的措施。  关键词:自媒体;基层公共图书馆;网络直播;小视频;阅读推广  随着信息网络技术的进步,在信息传播领域,微博、vlog、抖
期刊
摘 要:本文以NoteExpress为分析工具,对中国知网中云计算档案管理相关论文进行计量分析,对该领域的发文时间及数量分布、核心作者、主要研究机构和来源期刊进行统计分析,通过阅读文献摘要和正文的方式对论文研究主题进行分类,并从理论研究和实践应用两方面概要介绍了主要研究成果,为推动云计算在档案行业的运用提供支持。  关键词:档案管理;云计算;文献计量;研究现状  引言  随着现代信息技术的飞速发展
期刊