论文部分内容阅读
摘 要:OPAC使图书馆读者可以万维网实现对本地图书资源的查找和借阅。但是单纯依靠本地数据信息只能提供图书内容、典藏信息、借阅状态等信息,并不能及时提供诸如书评、图书封面等相关及时信息。利用WEB页面分析技术和Mashup技术可以将互联网相关信息整合到OPAC中,使读者可以客观形象地得到更全面的信息。
关键词:WEB页面分析;Mashup;OPAC
中图分类号:G354.4 文献标识码:A
The Applications of WEB Analytics Technology and Mashup Technology in the Library OPAC
DANG Xing-hua,WANG Hong-yan
(Anhui University of Architecture ,Anhui Hefei 230000)
Key words: WEB analytics; Mashup;OPAC
OPAC(Online Public Access Catalog)即联机公共检索目录。是一种通过网络查询馆藏信息资源的联机检索系统,用户可以在任何地方查询各图书馆的OPAC资源。书目数据功能是OPAC的主要功能之一,书目数据库是OPAC系统的数据源,书目数据质量是影响读者利用OPAC检索效率的最直接、最重要的因素。但是单纯依靠本地数据信息只能提供图书内容、典藏信息、借阅状态等信息,并不能及时提供诸如书评、图书封面等相关及时信息。利用WEB页面分析技术和Mashup技术可以将互联网相关信息整合到OPAC中,使读者可以客观形象地得到更全面的信息。
1 本馆OPAC现状
本馆OPAC系统基本上在一个局域网内实现馆藏书目数据的检索查询,用户可以通过网络浏览器或C/S结构软件客户端以菜单和命令方式,使用包括题名、著者、团体著者、分类号、关键词、主题词和统一书号的检索查询,系统具有浏览功能, 能显示文献位置和状态。由于软件系统并没有提供开发接口,不能方便地提取相关有用书目信息,为了能够达到相关技术要求,必须根据读者的检索要求,从书目数据库和互联网开放的资源中提取相关有用信息,然后通过整理发布给读者,并且包含适当有效的连接,以便读者进一步获取相关详细信息。根据以上的分析,可以大致形成一个整合两种信息来源的方法:通过分析OPAC系统提供的WEB信息获取本地书目数据,利用互联网相关网站的Mashup服务获取书评等即时数据,这就本文将要分析的WEB页面分析技术和Mashup技术。另外对于没有提供Mashup服务又存在相关有用信息的互联网资源,也可以通过WEB页面分析技术获取相关数据。
2 WEB页面分析技术和Mashup技术
2.1WEB页面分析
HTML格式的文档是当前WEB页面最主要的表现形式,而HTML文档包含了内容和表现形式,且更注重表现形式。这里所述的WEB页面分析是指基于HTML文档的以提取内容为主要目的分析处理方法。由于文档的内容和形式相分离是XML文档的特点,将分析结果存储为XML文档是一种不错的选择。WEB分析处理的流程如下:
下载WEB页面→XML文件转换→结构简化→结构识别→知识提取→数据保存
2.2Mashup
Mashup的英文定义为“Mashup: web application hybrid, a website or web application that combines content from more than one source”,也就是“Mashup:网络聚合应用,有1个或者多个信息源整合起来的网站或者网络应用”。Mashup是从多个分散的站点获取信息源,组合成新网络应用的一种应用模式。它利用了从外部数据源检索到的内容来创建全新的创新服务,将来自不止一个数据源的内容进行组合,创造出更加增值的服务。
书目信息Mashup是Mashup技术在图书馆最主要的应用之一。在馆藏信息的下方获取其他数据源的信息或链接,可以提供增值服务,改善读者体验。Mashup架构如图1所示。

3 OPAC中WEB页面分析技术和Mashup技术的应用
3.1WEB页面分析技术在OPAC中的应用
使用WEB页面分析技术分析OPAC检索页面,经过分析得到书目信息数据,可以为新型OPAC提供参考数据,OPAC检索页面分析程序流程如下:发送HttpRequest请求→接收HttpResponse返回的html源文件→取出包含数据的源码→由html源码循环取出数据并生成XML文档→保存以供OPAC调用显示。
3.2Mashup技术在OPAC中的应用
Mashup技术在OPAC中的应用主要之一是Mashup的书目信息应用。最简单的应用是使用豆瓣API,如果读者查询一本书通过页面分析得到这本书的ISBN号,就可以通过豆瓣API获得更详细的信息。例如得到某本书的ISBN是9787560610085,只需使用如下请求:
get http://api.douban.com/book/subject/isbn/9787560610085
豆瓣API服务器就会返回XML格式的数据包含了本书的详细内容,这样我们就可以很方便地按照自己的要求将信息传送给读者了。返回数据的具体形式如图2所示。

4 结束语
Web2.0的发展给图书馆带来了新的挑战,改变了图书馆服务模式,使图书馆服务方式向用户转变,特别表现在电子服务上,如OPAC、在线图书馆服务以及用户信息流的回溃。本文分析了使用Mashup技术使得一种仅能通过WEB页面分析方法获得本地书目信息的传统OPAC转变成个性化的能够提供多种即时信息的新型OPAC的技术实现思路,相信可以使得我们为了使图书馆服务历久常新而重新评估现有的服务。
参考文献:
[1]鲍仕壮,徐超,谭守标,李正平. Web页面表格内容的提取方法研究软件导刊[J]. Vol.7 No.9,Se.2008.
[2]朱咫渝 陈琳. Mashup在图书馆的应用.[J].现代情报,2008 No.6.
[3]曹霞.OPAC基本功能研究概述[J].农业图书情报学刊, Vol.20,No.10, Oct.2008.
关键词:WEB页面分析;Mashup;OPAC
中图分类号:G354.4 文献标识码:A
The Applications of WEB Analytics Technology and Mashup Technology in the Library OPAC
DANG Xing-hua,WANG Hong-yan
(Anhui University of Architecture ,Anhui Hefei 230000)
Key words: WEB analytics; Mashup;OPAC
OPAC(Online Public Access Catalog)即联机公共检索目录。是一种通过网络查询馆藏信息资源的联机检索系统,用户可以在任何地方查询各图书馆的OPAC资源。书目数据功能是OPAC的主要功能之一,书目数据库是OPAC系统的数据源,书目数据质量是影响读者利用OPAC检索效率的最直接、最重要的因素。但是单纯依靠本地数据信息只能提供图书内容、典藏信息、借阅状态等信息,并不能及时提供诸如书评、图书封面等相关及时信息。利用WEB页面分析技术和Mashup技术可以将互联网相关信息整合到OPAC中,使读者可以客观形象地得到更全面的信息。
1 本馆OPAC现状
本馆OPAC系统基本上在一个局域网内实现馆藏书目数据的检索查询,用户可以通过网络浏览器或C/S结构软件客户端以菜单和命令方式,使用包括题名、著者、团体著者、分类号、关键词、主题词和统一书号的检索查询,系统具有浏览功能, 能显示文献位置和状态。由于软件系统并没有提供开发接口,不能方便地提取相关有用书目信息,为了能够达到相关技术要求,必须根据读者的检索要求,从书目数据库和互联网开放的资源中提取相关有用信息,然后通过整理发布给读者,并且包含适当有效的连接,以便读者进一步获取相关详细信息。根据以上的分析,可以大致形成一个整合两种信息来源的方法:通过分析OPAC系统提供的WEB信息获取本地书目数据,利用互联网相关网站的Mashup服务获取书评等即时数据,这就本文将要分析的WEB页面分析技术和Mashup技术。另外对于没有提供Mashup服务又存在相关有用信息的互联网资源,也可以通过WEB页面分析技术获取相关数据。
2 WEB页面分析技术和Mashup技术
2.1WEB页面分析
HTML格式的文档是当前WEB页面最主要的表现形式,而HTML文档包含了内容和表现形式,且更注重表现形式。这里所述的WEB页面分析是指基于HTML文档的以提取内容为主要目的分析处理方法。由于文档的内容和形式相分离是XML文档的特点,将分析结果存储为XML文档是一种不错的选择。WEB分析处理的流程如下:
下载WEB页面→XML文件转换→结构简化→结构识别→知识提取→数据保存
2.2Mashup
Mashup的英文定义为“Mashup: web application hybrid, a website or web application that combines content from more than one source”,也就是“Mashup:网络聚合应用,有1个或者多个信息源整合起来的网站或者网络应用”。Mashup是从多个分散的站点获取信息源,组合成新网络应用的一种应用模式。它利用了从外部数据源检索到的内容来创建全新的创新服务,将来自不止一个数据源的内容进行组合,创造出更加增值的服务。
书目信息Mashup是Mashup技术在图书馆最主要的应用之一。在馆藏信息的下方获取其他数据源的信息或链接,可以提供增值服务,改善读者体验。Mashup架构如图1所示。

3 OPAC中WEB页面分析技术和Mashup技术的应用
3.1WEB页面分析技术在OPAC中的应用
使用WEB页面分析技术分析OPAC检索页面,经过分析得到书目信息数据,可以为新型OPAC提供参考数据,OPAC检索页面分析程序流程如下:发送HttpRequest请求→接收HttpResponse返回的html源文件→取出包含数据的源码→由html源码循环取出数据并生成XML文档→保存以供OPAC调用显示。
3.2Mashup技术在OPAC中的应用
Mashup技术在OPAC中的应用主要之一是Mashup的书目信息应用。最简单的应用是使用豆瓣API,如果读者查询一本书通过页面分析得到这本书的ISBN号,就可以通过豆瓣API获得更详细的信息。例如得到某本书的ISBN是9787560610085,只需使用如下请求:
get http://api.douban.com/book/subject/isbn/9787560610085
豆瓣API服务器就会返回XML格式的数据包含了本书的详细内容,这样我们就可以很方便地按照自己的要求将信息传送给读者了。返回数据的具体形式如图2所示。

4 结束语
Web2.0的发展给图书馆带来了新的挑战,改变了图书馆服务模式,使图书馆服务方式向用户转变,特别表现在电子服务上,如OPAC、在线图书馆服务以及用户信息流的回溃。本文分析了使用Mashup技术使得一种仅能通过WEB页面分析方法获得本地书目信息的传统OPAC转变成个性化的能够提供多种即时信息的新型OPAC的技术实现思路,相信可以使得我们为了使图书馆服务历久常新而重新评估现有的服务。
参考文献:
[1]鲍仕壮,徐超,谭守标,李正平. Web页面表格内容的提取方法研究软件导刊[J]. Vol.7 No.9,Se.2008.
[2]朱咫渝 陈琳. Mashup在图书馆的应用.[J].现代情报,2008 No.6.
[3]曹霞.OPAC基本功能研究概述[J].农业图书情报学刊, Vol.20,No.10, Oct.2008.