基于分类本体的Ｗｅｂ信息集成

来源 :网络与信息 | 被引量 : 0次 | 上传用户：motombo555

【摘要】

：

【作者】

：

马纪颖　张　颜　张　洋

【出处】

：

网络与信息

【发表日期】

：

2008年6期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　1 引言
　　
　　信息集成通常是针对某个既定目标，或面向某特定任务，对信息进行组织和管理，它包含一种使相关的多元信息有机融合并优化使用的理念。网络环境下，数据极大丰富的同时也带来了数据泛滥的问题，Web信息集成技术是从巨量的信息中获取有效信息的方法。利用此项技术，用户只需关心自己的真正需求而无须登录多家网站；它提供的集成技术，能去除来自不同网站的数据的不一致性及冗余性；同时在搜集不到数据时，它提供的代理服务还能定时去自动获取数据。
　　目前，建设Web信息集成系统有两种方法[1,2]，分别是物理集成法和逻辑集成法。
　　
　　2 基于分类本体的Web信息集成
　　
　　2.1 基本思路
　　传统Web信息集成，大多面向页面信息内容集成，基于页面结构、页面内容语义等实现集成，很少考虑网站组织结构的作用。基于分类本体的Web信息集成的核心思想[3]是：充分挖掘作为Web页面聚合出现的网站的组织结构，对网站组织结构进行一系列的转换和处理，实现各网站组织结构的对应和集成，并达到各网站集成。
　　2.2 基于分类本体的Web信息集成过程
　　对网站进行基于分类本体的集成处理的过程如下：
　　（1）从各信息源网站获取信息。在基于分类本体的Web信息集成中，信息获取以网站为单位进行，包括两部分：一是信息和网站结构图获取；二是网站分类体系抽取。从网站首页开始下载页面，并在下载页面的同时，记录页面间的链接关系，从而实现信息和网站结构图获取,获取的网站结构图进行了适当的简化。
　　（2）信息预处理。在基于分类本体的Web信息集成中，信息预处理包括两方面内容：页面内容提取，和基于网站结构的信息分类。分析页面HTML源文件，从中提取页面信息内容，构建出结构化的页面信息记录。本文主要处理新闻页面，所以结构化记录的形式为“id，URL，title，keywords，time，content”，id为系统自动产生的序号，URL为信息所在页面的链接地址，title为页面标题，keywords为页面关键字，time为信息发布时间，content为新闻详细内容。
　　（3）网站分类体系集成。网站分类体系集成，即分类本体支持下的多网站分类体系合并。用户从上面提取的信息源网站分类体系树中，选择感兴趣的部分，组成输出分类体系作为输入，如果不选择则整个体系作为集成的输入；在标准Web分类本体的支持下，各输入分类体系标准化为标准输出分类体系，这些标准分类体系语义和结构冲突、差异都已经消除，只是内容可能不同，合并这些标准输出分类体系得到标准集成分类体系，即可实现各信息源网站分类体系的集成。
　　（4）用户视图生成。在全局统一集成视图的基础上，提供个性化视图构建支持工具。结合用户的个人资料，在用户简单参与下，设定页面风格，信息展示方式、位置和排列顺序等，生成个性化视图界面。
　　
　　3 基于Portal的集成视图
　　
　　使用Apache开源项目Jetspeed2开发NEU-WIIS系统的前台部分， Jetspeed-2是Apache开发的下一代企业级Portal。在集成系统Portal视图中，如果用户没有登录，则可以浏览系统提供的默认Portal页面，可以在系统默认提供的各信息聚合页面间选择和切换，在各信息页面上，可以选择portlets的状态为展开或最小化，图1为系统用户的Portal浏览视图。
　　

　　
　　参考文献
　　[1]孟小峰.Web信息集成技术研究[J].计算机应用与软件,2003,20(11):32-36.
　　[2]S. Abiteboul, D. Suciu and P. Bunemann. Data on the Web: FromRelationstoSemi-
　　Structured Data and XML [M].San Diego: Morgan Kaufmann Press,1999,58-86.
　　[3]GAO Ke-ning,Ma An-xiang,Zhang Bin.Web Integration Based on Classification Ontology[J],Journal of Southeast University(English Edition),2006,22(3):426-429.

其他文献

如何在预装Ｖｉｓｔａ的ＰＣ上安装ＸＰ

如今，越来越多的PC在出厂时预装Windows Vista，这在很大程度上给用户带来了方便——虽然预装的Windows Vista多为Home Basic之类简化版本——不过，对许多用户而言，也许更习惯于Windows XP，加上日常使用的某些应用软件可能在Windows Vista中运行不太正常，因此，很多人希望能在系统中安装Windows XP，当然，前提是不影响系统中预装的Windows V

期刊

２３条电脑硬件维护基本技巧

整机要做到防尘、防高温、防磁、防潮、防静电、防震。　　电脑应放置于整洁的房间,避免灰尘太多对各电脑配件造成不良影响；电脑周围应保留足够的散热空间,不要堆放杂物；电脑工作期间不要吸烟，烟雾对电脑的损坏也不可小看；　　电脑周围不要有强大磁场，音箱尽量不要放在显示器附近，也不要将磁盘、信用卡以及饭卡等放在音箱上面以防止被磁化；　　不要在电脑桌上放置茶杯，更不要将其置于主机、显示器、键盘之上，电脑最怕水了

期刊

如何优化电脑系统的ＢＩＯＳ？

1.在Standard CMOS Setup里没有连接IDE设备的端口的TYPE和MODE设为None。　　　　2.将CPU Internal Cache、External Cache设为Enabled，打开CPU一二级缓存。　　　　3.将System Boot Up speed设为High。使系统引导速度为高速。　　　　4.将Boot Sequence设为“C，A:”。　　　　5.将Floopy

期刊

解决ｆｌａｓｈ插件安装失败的最佳方法

经常有朋友问“为什么在网上看不到FLASH，只看见一个空白方框”、“每次上网都提示安装flash插件，但是安装的时候又有故障提示：‘Adobe flash player安装失败，请访问http: // www.adobe.com / go / tn_19166_　　cn’”。其实多数是因为重装系统时，没有安装好Adobe flash player所造成的。　　于是我到网上搜索解决的方法，但是绝大多

期刊

ＩＥ浏览器遭难不求人　快速自我修复方法

IE是大部分计算机用户上网所使用的浏览器，因此也成为各种病毒、恶意程序所攻击的对象。这里介绍一些简单有效的IE遭破坏后的自我修复方法：　　　　1.IE插件遭恶意破坏　　　　网上有报道称在正常关机之后，再次开机，Windows XP系统却不能正常启动。WindowsXP系统开机后，在启动列表中无论是选择正常或者安全模式启动，均无法正常进入系统，而且机器随后自动重启，如此循环，使用系统修复等措施也

期刊

ＤＩＹ攒机３４条经验之谈，经典一句话！

下面这34条DIY攒机、配件知识一句话经验，写在这里，希望对朋友们能有一些帮助。　　(1) 对于中低端显卡，超过256MB的显存是没有多大意义的。用低端显卡组建SLI不如购买同样价格的中高端显卡。　　(2) 如果你已经确定好配件，在攒机时千万不要被经销商几句忽悠就更改配件。一般来说经销商均是根据自己利润多少来向你推荐的。　　(3) 目前普遍的CPU都相当好超频，但很多低价主板都是不能超频的。如果你

期刊

Ｖｉｓｔａ笔记本散热消热终极大法

我们知道，笔记本的散热问题一直是困扰广大Vista本本用户的难题，网上有一种用手感觉笔记本温度的方法（直接摸笔记本电脑的键盘和底部），大家不妨一试，这种方法简单有效。　　一般来说，手感觉不到的温度在25℃左右；有温度的感觉了在35℃度左右；温温的，也就是挺暖和的感觉应该在45℃左右；热但还可以连续接触应该在55℃左右；感到烫不过还能忍受三五秒的温度因该在70℃左右；感觉很烫，接触一下就后悔碰它了，

期刊

Ｌｉｎｕｘ网络时代的操作系统

1 Linux的背景和特色　　　　(1) 完全遵循POSLX标准，并扩展支持所有AT&T和BSD Unix特性的网络操作系统。　　　　(2) 真正的多任务、多用户系统，内置网络支持，能与NetWare、Windows NT、OS/2、Unix 等无缝连接。　　　　(3) 可运行于多种硬件平台，包括Alpha、SunSparc、PowerPC、MIPS等处理器，对各种新型外围硬件，也可以从分布于全球

期刊

系统重装防病毒再侵袭　５事项须注意

很多人认为，只要重新安装了操作系统，就可以彻底清除病毒。但却不知道在操作系统进行重新安装后，由于安全设置以及补丁未及时安装等问题，最容易导致病毒的大肆入侵，因此一些必备的补充措施是非常关键的。　　　　一、不要急着接入网络　　　　在安装完成Windows后，不要立即把服务器接入网络，因为这时的服务器还没有打上各种补丁，存在各种漏洞，非常容易感染病毒和被入侵。此时要加上补丁后并重新启动再联入互联网。　

期刊

ＡｕｔｏＣＡＤ绘制机械图样的技巧

AutoCAD是国内广泛使用的计算机辅助绘图软件，已成为机械专业学生的主要绘图工具，操作此软件最直接的要求是在最短的时间内准确地完成绘图任务。但很多学生在实际工作中绘图速度慢，工作效率低，本人以AutoCAD2006中文版为参照，总结多年绘图的经验，整理出点滴学习思路，以供广大从事AutoCAD教学的教师、希望提高绘图速度的学生及其他相关人员参考。　　　　1 合理配置AutoCAD共性参数，创建机

期刊

基于分类本体的Ｗｅｂ信息集成

与本文相关的学术论文