论文部分内容阅读
1 引言
信息集成通常是针对某个既定目标,或面向某特定任务,对信息进行组织和管理,它包含一种使相关的多元信息有机融合并优化使用的理念。网络环境下,数据极大丰富的同时也带来了数据泛滥的问题,Web信息集成技术是从巨量的信息中获取有效信息的方法。利用此项技术,用户只需关心自己的真正需求而无须登录多家网站;它提供的集成技术,能去除来自不同网站的数据的不一致性及冗余性;同时在搜集不到数据时,它提供的代理服务还能定时去自动获取数据。
目前,建设Web信息集成系统有两种方法[1,2],分别是物理集成法和逻辑集成法。
2 基于分类本体的Web信息集成
2.1 基本思路
传统Web信息集成,大多面向页面信息内容集成,基于页面结构、页面内容语义等实现集成,很少考虑网站组织结构的作用。基于分类本体的Web信息集成的核心思想[3]是:充分挖掘作为Web页面聚合出现的网站的组织结构,对网站组织结构进行一系列的转换和处理,实现各网站组织结构的对应和集成,并达到各网站集成。
2.2 基于分类本体的Web信息集成过程
对网站进行基于分类本体的集成处理的过程如下:
(1)从各信息源网站获取信息。在基于分类本体的Web信息集成中,信息获取以网站为单位进行,包括两部分:一是信息和网站结构图获取;二是网站分类体系抽取。从网站首页开始下载页面,并在下载页面的同时,记录页面间的链接关系,从而实现信息和网站结构图获取,获取的网站结构图进行了适当的简化。
(2)信息预处理。在基于分类本体的Web信息集成中,信息预处理包括两方面内容:页面内容提取,和基于网站结构的信息分类。分析页面HTML源文件,从中提取页面信息内容,构建出结构化的页面信息记录。本文主要处理新闻页面,所以结构化记录的形式为“id,URL,title,keywords,time,content”,id为系统自动产生的序号,URL为信息所在页面的链接地址,title为页面标题,keywords为页面关键字,time为信息发布时间,content为新闻详细内容。
(3)网站分类体系集成。网站分类体系集成,即分类本体支持下的多网站分类体系合并。用户从上面提取的信息源网站分类体系树中,选择感兴趣的部分,组成输出分类体系作为输入,如果不选择则整个体系作为集成的输入;在标准Web分类本体的支持下,各输入分类体系标准化为标准输出分类体系,这些标准分类体系语义和结构冲突、差异都已经消除,只是内容可能不同,合并这些标准输出分类体系得到标准集成分类体系,即可实现各信息源网站分类体系的集成。
(4)用户视图生成。在全局统一集成视图的基础上,提供个性化视图构建支持工具。结合用户的个人资料,在用户简单参与下,设定页面风格,信息展示方式、位置和排列顺序等,生成个性化视图界面。
3 基于Portal的集成视图
使用Apache开源项目Jetspeed2开发NEU-WIIS系统的前台部分, Jetspeed-2是Apache开发的下一代企业级Portal。在集成系统Portal视图中,如果用户没有登录,则可以浏览系统提供的默认Portal页面,可以在系统默认提供的各信息聚合页面间选择和切换,在各信息页面上,可以选择portlets的状态为展开或最小化,图1为系统用户的Portal浏览视图。
参考文献
[1]孟小峰.Web信息集成技术研究[J].计算机应用与软件,2003,20(11):32-36.
[2]S. Abiteboul, D. Suciu and P. Bunemann. Data on the Web: FromRelationstoSemi-
Structured Data and XML [M].San Diego: Morgan Kaufmann Press,1999,58-86.
[3]GAO Ke-ning,Ma An-xiang,Zhang Bin.Web Integration Based on Classification Ontology[J],Journal of Southeast University(English Edition),2006,22(3):426-429.
信息集成通常是针对某个既定目标,或面向某特定任务,对信息进行组织和管理,它包含一种使相关的多元信息有机融合并优化使用的理念。网络环境下,数据极大丰富的同时也带来了数据泛滥的问题,Web信息集成技术是从巨量的信息中获取有效信息的方法。利用此项技术,用户只需关心自己的真正需求而无须登录多家网站;它提供的集成技术,能去除来自不同网站的数据的不一致性及冗余性;同时在搜集不到数据时,它提供的代理服务还能定时去自动获取数据。
目前,建设Web信息集成系统有两种方法[1,2],分别是物理集成法和逻辑集成法。
2 基于分类本体的Web信息集成
2.1 基本思路
传统Web信息集成,大多面向页面信息内容集成,基于页面结构、页面内容语义等实现集成,很少考虑网站组织结构的作用。基于分类本体的Web信息集成的核心思想[3]是:充分挖掘作为Web页面聚合出现的网站的组织结构,对网站组织结构进行一系列的转换和处理,实现各网站组织结构的对应和集成,并达到各网站集成。
2.2 基于分类本体的Web信息集成过程
对网站进行基于分类本体的集成处理的过程如下:
(1)从各信息源网站获取信息。在基于分类本体的Web信息集成中,信息获取以网站为单位进行,包括两部分:一是信息和网站结构图获取;二是网站分类体系抽取。从网站首页开始下载页面,并在下载页面的同时,记录页面间的链接关系,从而实现信息和网站结构图获取,获取的网站结构图进行了适当的简化。
(2)信息预处理。在基于分类本体的Web信息集成中,信息预处理包括两方面内容:页面内容提取,和基于网站结构的信息分类。分析页面HTML源文件,从中提取页面信息内容,构建出结构化的页面信息记录。本文主要处理新闻页面,所以结构化记录的形式为“id,URL,title,keywords,time,content”,id为系统自动产生的序号,URL为信息所在页面的链接地址,title为页面标题,keywords为页面关键字,time为信息发布时间,content为新闻详细内容。
(3)网站分类体系集成。网站分类体系集成,即分类本体支持下的多网站分类体系合并。用户从上面提取的信息源网站分类体系树中,选择感兴趣的部分,组成输出分类体系作为输入,如果不选择则整个体系作为集成的输入;在标准Web分类本体的支持下,各输入分类体系标准化为标准输出分类体系,这些标准分类体系语义和结构冲突、差异都已经消除,只是内容可能不同,合并这些标准输出分类体系得到标准集成分类体系,即可实现各信息源网站分类体系的集成。
(4)用户视图生成。在全局统一集成视图的基础上,提供个性化视图构建支持工具。结合用户的个人资料,在用户简单参与下,设定页面风格,信息展示方式、位置和排列顺序等,生成个性化视图界面。
3 基于Portal的集成视图
使用Apache开源项目Jetspeed2开发NEU-WIIS系统的前台部分, Jetspeed-2是Apache开发的下一代企业级Portal。在集成系统Portal视图中,如果用户没有登录,则可以浏览系统提供的默认Portal页面,可以在系统默认提供的各信息聚合页面间选择和切换,在各信息页面上,可以选择portlets的状态为展开或最小化,图1为系统用户的Portal浏览视图。
参考文献
[1]孟小峰.Web信息集成技术研究[J].计算机应用与软件,2003,20(11):32-36.
[2]S. Abiteboul, D. Suciu and P. Bunemann. Data on the Web: FromRelationstoSemi-
Structured Data and XML [M].San Diego: Morgan Kaufmann Press,1999,58-86.
[3]GAO Ke-ning,Ma An-xiang,Zhang Bin.Web Integration Based on Classification Ontology[J],Journal of Southeast University(English Edition),2006,22(3):426-429.