论文部分内容阅读
由于并非所有的相关数据能有效地融入单一数据模型,因此现在绝大多数的数据组织依赖于海量的多种数据源。数据空间定义为一个虚拟的空间,它管理多种数据源且并不考虑数据结构及物理位置,因此数据源是异构的。由于管理多种数据模型的数据源的需求越来越多,因此对智能管理系统的需求逐渐增多。这种智能管理系统可以提供对异构和分布式数据源的访问,并且可以将其看作是一个单一的信息源用于搜索及查询。由于数据空间中存在的海量数据源,迅速准确地从数据源中查询到用户的请求是一个非常大的挑战。并且,现有的许多查询系统专注于对数据源信息的研究,而对于用户的查询请求方面,即对于用户查询意图及相关度的研究.则较少涉及。比如,现有的图像检索系统仍旧只局限于基于关键词查询,而这种查询方式的局限性在于,关键词本身不能很好地描述图像信息的全部属性。一个精确匹配查询不能很好地运用于这样的查询系统。比如英语查询词"lung cancer"在法语、中文或者德语中的发音及拼写是各不相同的。总而言之,数据空间检测处理需要一个并行的优化策略,以期能够有效地处理一组异构数据源信息。本文主要研究基于用户相关度概率策(我这边改对去你那边就是错的,你说咋改)的数据空间完备信息查询系统的设计。本文的主要研究点如下:首先,我们提出了一种基于XML信息的图像检索系统(XIRS),该系统可以在单一数据源中检索图像。用户可以使用一幅样例图像或者关键词作为查询请求,而两幅图像的相似性可以利用图像对应的两个XML节点相似性来度量。此外,我们进一步将XIRS系统扩展成XIRD系统,该系统可以利用一组异构数据源信息来实现图像检索。其次,由于基于预测数据源信息的检索过程可能隐含着检索结果信息,我们构建了一种信息隐藏模型(IHM),该模型融合了用户感知文档间相似性的信息。IHM模型使用一组分割后的查询语句和一组异构数据源信息,并据此计算出最相似路径用于数据查询。这里我们提出了三种不同的学习策略,即用户潜在的查询习惯(UHH),用户潜在背景(UHBB)以及用户潜在关键词语义信息(UHS)。上述三种学习策略可以更好地表达用户的主观查询意图,并据此改进检索性能。再次,我们提出了一种优化算法以改进概率处理过程的性能,该优化算法命名为一种使用预测模型的两阶段信息检索算法(2PROM)。2PROM算法采用两步骤来优化数据空间检索过程。第一步构建一个管道通路来寻找最优的检索策略。而在第二步中,将检索策略和预测模型相融合以确定出最有效的查询通路执行查询操作。最后,为了进一步论证本文所提算法的有效性,我们将所提算法运用到一个实际系统中,即"NoCancerSpace"系统,该系统能用于肺癌诊断查询。由于肺部疾病可以表征多种症状,且每—种病症都有对应的X光片和诊断。而x光检测器可以帮助医生确诊病人是否患有肺部疾病。因此,在医院中使用基于图像数据源的查询系统可以作为诊断影像学的辘助工具,同时它也可以翔于原型通信系统,而采用本文算法的医学图像查询系统可以辅助确诊或者预防肺癌疾病。