Deep Web信息集成若干关键技术研究

来源 :苏州大学 | 被引量 : 7次 | 上传用户:hdme1958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet信息的迅速增长,整个Web信息已经被各种各样的可搜索的在线数据库所深化,那些信息被隐藏在Web查询接口下面,即Deep Web信息。传统的搜索引擎爬虫程序由于技术原因不能索引Deep Web信息。为了方便用户快捷高效的使用Deep Web信息,Deep Web信息集成的研究已成为一个非常迫切的问题,具有广泛的应用前景和实用价值,已成为近年来的研究热点。本文对Deep Web信息集成的研究现状和发展趋势进行了深入的分析。在课题组前期工作的基础上,就Deep Web信息集成中若干关键技术进行了研究,这些研究包括了Deep Web数据源发现、Deep Web数据源分类聚类、Deep Web数据增量抓取策略以及Deep Web模式和数据抽取技术等内容。所做的工作和取得的创新成果主要体现在下面五个方面:(1)针对Deep Web数据源的动态性和稀疏分布的特征,提出了一种基于查询接口聚焦爬虫的Deep Web数据源发现方法,聚焦访问那些可能链接到Deep Web入口页面的链接,避免访问下载不必要的页面。除了考虑Deep Web入口页面和链接本身的特征以外,还考虑了通向目标页面路径上的特征。实验结果表明,该方法可以有效的提高Deep Web数据源发现的效率。(2)把Deep Web数据源按其所属领域进行组织,方便用户浏览这些有价值的资源,这是Deep Web信息集成的一个关键步骤。本文提出了一种基于查询接口特征的Deep Web分类方法和基于查询接口连接图的Deep Web聚类方法,从而可以对Deep Web数据源按其所属领域进行自动组织和管理。该方法不需提交查询采样Deep Web内部数据,同时由于Deep Web的接口页面获取容易,因此其具有较强的可扩展性。(3)由于Deep Web是自治的,独立更新的,因此对于一些应用需要周期性的抓取Deep Web内容以检查其更新。由于不同的Deep Web数据源或同一个Deep Web数据源内部数据记录的变化频率不一,按统一频率更新所有数据是非常浪费资源的。针对该问题本文提出了基于不同粒度的Deep Web数据增量抓取策略,其粒度可分为数据源和数据记录,根据不同的应用需求可选取不同的粒度。实验结果表明,该方法在相同资源约束前提下,可有效提高本地数据的时新性。(4) Deep Web查询接口和结果页面主要是通过HTML语言编写的,使得Deep Web上的数据是半结构化的甚至是无结构的,给Deep Web信息集成带来了很大的困难。网页主要是为了方便人们浏览从中获取有用的信息,而不是被计算机自动处理,因而获取页面的视觉信息可以从某种程度上模拟人类的行为对页面进行识别。本文提出了一种基于视觉特征的Deep Web模式和数据自动抽取方法,该方法使用Deep Web页面的视觉特征,避免了传统基于DOM树的方法依赖于HTML的定义,并且页面可以是HTML语言或任何其它语言描述的,包括非规范HTML语言描述,因此该方法具有较强的适应性。(5)根据所研究的关键技术和实际应用需求,提出了一个面向Deep Web的信息集成体系结构,并开发了一个Deep Web信息集成原型系统,该原型系统具有数据源发现、数据源管理、模式与数据抽取等功能,实际应用表明,该系统具有一定的实用价值。本项研究工作受到国家自然科学基金项目“面向Deep Web的不完备知识处理的逻辑模型研究”(编号:60673092)、江苏省高技术研究计划项目“面向Deep Web的搜索和挖掘关键技术研究”(编号:BG2005019)以及江苏省高校研究生科技创新计划项目“Deep Web信息集成关键技术研究”(编号:CX07B-122Z)的资助。
其他文献
<正>防蓝光是提升生活质量、预防眼疲劳的重要措施。尤其是长时间与LED光源接触的人群。那么蓝光危害高危人群有哪些?1.电脑、手机、平板电脑、电视等重度使用者长时间直视LE
各位领导,女士们、先生们: “中石器文化及有关问题”国际学术研讨会,经过筹委会一年多的筹备,今天终于胜利召开了。筹委会热烈欢迎国内外学者的光临,同时也感谢你们对这个会议的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回顾了上海近代引入空调技术及应用的历史,对行业发展及相关人物进行了评述。展示了近代上海空调技术的应用水平及相应的地位及作用。
煤矿概率流数据是指满足概率流数据模型的煤矿安全监测监控系统中的数据,煤矿概率流数据挖掘方法研究是以煤矿灾害预测为最终目标,研究煤矿概率流数据挖掘系统体系结构,以及
从人们追求健康生活、"健康中国"角度,阐述了健康建筑发展的迫切需求。根据健康的定义并将其与建筑结合分析,指出健康建筑的健康性能应涵盖人所需的生理、心理、社会三方面要
利用三维数字化建筑场景,模拟和感受城市建筑生活环境,多角度、真实性地再现了未来城市设计,相比传统的图纸规划,不仅节省了人力,而且有效提高了城市规划的准确度。本文设计了一种
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
作为当前安全性、准确性最高的生物特征识别技术之一,虹膜识别技术的应用将日趋广泛。本文对虹膜识别技术在金融领域的现状和应用难点进行了梳理和分析,并提出了对策建议。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield