论文部分内容阅读
随着Internet的普及和发展,Web上累积了海量、分布、异构、动态的信息,是最重要的信息源之一。通过为Web添加一层机器可处理的语义元数据描述,语义Web使机器可以“理解”Web信息的语义并进行自动化的处理。Web2.0中累积了大量由普通用户自发贡献的信息、语义、知识等资源,以便机器可以在此基础上提供个性化、智能化的服务。这些海量、分布、动态的信息、资源,以及由不同模型所表示的语义、知识,为信息处理提出了新的挑战。
Web信息检索研究如何由计算机自动采集和组织Web中的海量信息,并根据用户的需求快速定位相关的信息展现给用户,其重要的理论和应用价值吸引了来自学术界和业界不同领域研究人员的广泛关注。为了提高Web信息检索的性能,尤其是提高检索结果与检索需求之间的相关性,需要更好地理解Web信息和用户检索的语义,因此,基于语义的Web信息检索研究已逐渐成为当前的研究热点之一。
在Web、语义Web和Web2.0中,已经提出了多种不同的语义模型,用于表示语义相关的知识和信息的语义,例如词典、分类目录、本体和语义标记、大众分类法和社会标注等。目前,已经实现了利用其中的一种或两种语义模型进行基于语义的信息检索。然而,如何结合多种异构的语义模型实现信息、知识和语义的采集、管理和检索,仍是一个亟待解决的问题。
本论文研究了Web异构信息的语义表征与检索理论,提出利用Web2.0中大量用户自发添加的社会语义标注,以及语义Web中基于本体的明确语义标记,提高语义理解的正确性和信息检索的有效性;在语义表征方面,运用统计方法融合现有的词典、本体等多种语义模型,并支持它们之间的语义互操作;在语义检索方面,结合关键词和异构语义模型,进行语义知识和语义标记提取、面向信息采集的语义相关度分析、以及语义索引与检索。主要工作和创新点如下:
(1)提出了一种面向Web异构信息的语义关联模型SAM,支持多种语义模型(包括LSI、词典、分类目录、本体和大众分类法)之间的语义互操作。其基本思想是利用Web中的大量信息及其语义标注,构建语义标注空间,利用统计方法分析关键词信息和语义信息之间潜在的关联,从而在现有语义模型之上构造一个语义关联层,融合各种语义模型,屏蔽其异构性,支持语义互操作。论文介绍了模型的理论,定义了相关的概念,给出了计算方法;将基于SAM的语义计算与基于本体的逻辑推理想结合实现基于语义的应用:并在此基础之上设计了一个Web异构信息检索框架。
(2)提出了异构语义标注提取的相关算法。从语义Web中提取本体和基于本体的语义标记,从Web2.0中提取大众分类法和社会标注等语义相关的知识和语义标记;在其基础之上构造语义标注空间,进行SAM建模,学习语义相关性矩阵知识;进而进行本体学习和社会标注聚类。
(3)提出了Web信息采集中语义相关度分析方法。针对SAM表示的特定主题,给待采集URL与主题的语义相关度进行评分和排序;对于采集获得的网页,利用不同的语义模型进行语义抽取,并计算其与给定主题的语义相关度。通过实验验证了所提出的方法的有效性。
(4)设计了关键词-语义双向索引,进行了基于异构语义的信息检索研究。实现了异构语义查询扩展、基于SAM的网页语义相似度计算、以及元搜索结果融合。实验结果表明该方法可以有效利用相关的语义知识实现Web信息检索。
基于上述研究,本论文最后实现了一个基于语义的Web异构信息检索原型系统,并将其应用于构建基金评审自动分配系统。