论文部分内容阅读
随着信息化的不断发展,信息门户的出现使用户从中得到了许多便利,它将各种网络资源统一集成到一个门户之下,具有一站式访问以及单点登录等特点,用户可以方便的从门户上获得各种信息资源和服务。然而,传统的信息门户聚合技术已不能满足互联网快速发展的需要:第一,现有构建信息门户的方法并没有重视用户的个性化需求。第二,信息门户的构建需要整合大量分散异构的信息资源,这些资源可能分布在不同信息门户中,这是一项复杂而艰巨的任务。如何有效重用不同门户的信息资源,从而大幅度提高信息门户的构建效率,降低开发成本已成为一个亟待解决的关键问题。本文主要面向信息门户网页资源的按需聚合问题,提出一种面向服务的、以用户主导的信息门户聚合方法,帮助用户有效利用来自不同门户的信息资源快速构建新的信息门户。本文重点研究了网页信息按需抽取方法以及服务化封装和聚合的相关理论和技巧,主要内容和创新点如下:1.提出可视化的网页信息按需抽取方法。传统的网页抽取技术缺乏对用户个性化需求的考虑,针对这一问题,本文对网页信息的结构特点进行分析并且结合已有的信息抽取模型和相关技术进行改进,提出了网页信息的按需抽取方法。用户可以根据其个性化需求,利用鼠标圈定抽取范围,可视化的定位和抽取所需的网页信息,实现网页信息的按需抽取。2.为屏蔽网页资源在数据格式和访问方式上的异构性,本文在前期工作的基础上,引入了数据服务模型,以用标准化的方式对抽取的网页资源进行封装,并通过数据服务中心对数据服务进行统一管理和维护,从而帮助用户高效、方便的查找和发现所需服务,为数据聚合提供更好的支持,服务化后的数据服务将被注册到数据服务中心进行有序化的组织和管理。3.提出可视化的数据服务聚合和界面布局方法。用户可以在客户端自定义数据服务的聚合模式,只需进行简单的可视化布局操作,对想要聚合的服务进行配置,无需人工编写代码。聚合后的数据服务在调用后,会形成新的信息门户,从而达到门户资源重用的目的。4.在基于用户的网页信息抽取与聚合方法的基础上,设计并实现可视化数据抽取模块、服务化封装模块和数据服务聚合模块,并且开发了信息门户聚合工具。