基于本体的Deep Web信息集成关键技术研究

来源 :苏州大学 | 被引量 : 3次 | 上传用户:lonelyshow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网(WWW)的飞速发展,Web尤其是Deep Web蕴含了各种各样的海量高价值信息,并且仍在以惊人的速度增长。Deep Web上的信息具有异构性、自治性和动态性等特点,这些特点决定了传统结构化信息集成方法已不能满足人们的需求。为了方便用户快捷准确的使用Deep Web中高价值信息,基于本体的Deep Web信息集成研究已成为一个非常迫切的问题,具有重要理论意义和广阔应用前景。在对Deep Web信息集成的研究现状和发展趋势进行了深入的分析后。在课题组前期工作的基础上,提出了一种基于本体的Deep Web信息集成方案。该方案包括面向Deep Web不确定知识表示的动态模糊描述逻辑方法、基于最大熵和本体的数据源发现技术、基于质量估计模型的数据源选择方法、以及基于多数据源同步标注的信息抽取和Deep Web语义集成中模糊性本体映射方法等内容。本文的主要研究工作和取得的创新成果包括:(1)一个完整、准确的本体是基于本体的Deep Web信息集成的必要前提。本文根据Deep Web特征半自动构建了Deep Web领域本体,并针对Deep Web本体学习和本体映射过程中存在不确定性知识表示问题,提出了一种面向Deep Web不确定知识表示的动态模糊描述逻辑方法(DFDLs),该方法弥补了传统描述逻辑方法对不确定性知识表示的不足。(2)针对Deep Web数据源的动态性和稀疏分布的特征,提出了一种基于最大熵分类器和领域本体的Deep Web数据源发现方法,该方法首先通过最大熵分类器进行Deep Web查询接口自动判定,然后利用基于本体的Deep Web聚焦爬虫发现Deep Web数据源,该方法使得聚焦爬虫聚焦访问那些可能链接到Deep Web入口页面的链接,从而避免访问下载不必要的页面。(3)通过服务质量可以评价Deep Web数据源的优劣,本文提出了一个基于领域本体的Deep Web数据源质量估计模型,并将其应用于Deep Web数据源选择过程中。采用此模型能够选取最符合用户需求的数据源,达到查询代价更少,效率更高的要求。(4)针对信息抽取过程中存在接口模式和结果模式缺失的问题,提出了一种多数据源间的同步标注方法。从一组Deep Web接口模式和结果模式中高效地学习领域本体知识,通过对本体的实例查询可实现多数据源间的同步标注。并成功应用此方法于Deep Web复杂结果页面抽取过程中。(5)针对基于本体的Deep Web信息集成过程中存在的不确定性模式匹配问题,将模式匹配问题转化为本体映射问题,提出了一个模糊性本体映射框架。在此框架中,运用了多个本体映射策略,从不同方面多个角度对本体特征进行描述,尽可能的发掘可能存在的映射关系,从模糊性角度表述映射过程。该方法为基于本体的Deep Web信息集成提供了一种有效和通用的自动映射策略。(6)Deep Web语义集成原型系统设计,本文根据所研究的关键技术和实际应用需求,设计并实现了一个Deep Web语义集成原型系统,该原型系统具有数据源发现、数据源选择、信息抽取和语义集成等功能。实际应用表明,该系统具有一定实用价值。本项研究工作受到国家自然科学基金项目“面向Deep Web的不完备知识处理的逻辑模型研究”(编号:60673092)、江苏省高技术研究计划项目“面向Deep Web的搜索和挖掘关键技术研究”(编号:BG2005019)、江苏省高校研究生科研创新计划项目“基于本体的Deep Web数据源发现与选择技术研究”(编号:CX08B-099Z)以及2008年苏州大学优秀博士论文选题项目资助(苏大研字[2008]22号)的资助。
其他文献
1病历摘要患者,女,46岁,因阵发性心前区疼痛、胸闷、气短3年,加重3天以"缺血性心脏病、不稳定性心绞痛、心功能I级;慢性浅表性胃炎;乙型病毒性肝炎;胆囊炎"于2012年6月3日收入
国家电网公司客户服务中心向客户提供一致的、高水平的服务,使客户感受到获得感、幸福感,是决定客户满意程度,体现企业品牌形象的窗口。满意度评价方法对于呼叫中心主要有两
目的:探讨和分析护理干预对社区中老年高血压患者自我管理行为的影响,总结其临床价值。方法:选择中老年高血压患者100例,随机分为观察组与对照组,每组50例,对照组给予常规药物治疗,
为了高效精确感知现代战场条件下的电磁态势,分析了战场电磁态势感知的需求,研究了基于高层信息融合的电磁态势融合感知技术框架。战场电磁态势融合感知技术框架面向异构信息
目的:探析可塑性钛钢板置入对有移位跟骨关节内骨折的临床效果。方法:将60例(60足)跟骨骨折患者随机分为对照组(30例)和观察组(30例),对照组采用保守非手术治疗,观察组采用切开复位钛
基于文献计量学方法,结合知识图谱分析方法,以CSSCI数据库收录的文献为数据源,对文献的时间分布、作者与研究机构、关键词词频与聚类等进行梳理,揭示国内城镇化研究的进展与
<正> 早期胃癌系指:“不论癌灶大小、转移有无,癌的浸润限于胃粘膜层或粘膜下层者。可分为二度,Ⅰ度是癌浸润止于粘膜层内;Ⅱ度是癌浸润超越粘膜层,而尚未达到肌层者。”其中
天基信息支援是当前联合作战的主要样式之一,指挥控制体系是天基信息支援联合作战的核心和神经中枢,构建天基信息支援指挥控制体系运行机制和网络结构模型有助于提升天基信息
针对集中式压制干扰下雷达对目标的检测概率下降导致跟踪航迹不连续的问题,提出了一种压制干扰下长基线雷达网多目标跟踪技术。首先将组网中的各雷达量测数据变换到地心直角坐
本论文以油橄榄叶降糖有效部位为研究对象,分别开展其对糖代谢关键酶α-葡萄糖苷酶和α-淀粉酶的抑制作用。在此基础上,利用离线二维高速逆流色谱技术对油橄榄叶降糖有效部位