Web异构信息的语义表征与检索研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:serena_gy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及和发展,Web上累积了海量、分布、异构、动态的信息,是最重要的信息源之一。通过为Web添加一层机器可处理的语义元数据描述,语义Web使机器可以“理解”Web信息的语义并进行自动化的处理。Web2.0中累积了大量由普通用户自发贡献的信息、语义、知识等资源,以便机器可以在此基础上提供个性化、智能化的服务。这些海量、分布、动态的信息、资源,以及由不同模型所表示的语义、知识,为信息处理提出了新的挑战。   Web信息检索研究如何由计算机自动采集和组织Web中的海量信息,并根据用户的需求快速定位相关的信息展现给用户,其重要的理论和应用价值吸引了来自学术界和业界不同领域研究人员的广泛关注。为了提高Web信息检索的性能,尤其是提高检索结果与检索需求之间的相关性,需要更好地理解Web信息和用户检索的语义,因此,基于语义的Web信息检索研究已逐渐成为当前的研究热点之一。   在Web、语义Web和Web2.0中,已经提出了多种不同的语义模型,用于表示语义相关的知识和信息的语义,例如词典、分类目录、本体和语义标记、大众分类法和社会标注等。目前,已经实现了利用其中的一种或两种语义模型进行基于语义的信息检索。然而,如何结合多种异构的语义模型实现信息、知识和语义的采集、管理和检索,仍是一个亟待解决的问题。   本论文研究了Web异构信息的语义表征与检索理论,提出利用Web2.0中大量用户自发添加的社会语义标注,以及语义Web中基于本体的明确语义标记,提高语义理解的正确性和信息检索的有效性;在语义表征方面,运用统计方法融合现有的词典、本体等多种语义模型,并支持它们之间的语义互操作;在语义检索方面,结合关键词和异构语义模型,进行语义知识和语义标记提取、面向信息采集的语义相关度分析、以及语义索引与检索。主要工作和创新点如下:   (1)提出了一种面向Web异构信息的语义关联模型SAM,支持多种语义模型(包括LSI、词典、分类目录、本体和大众分类法)之间的语义互操作。其基本思想是利用Web中的大量信息及其语义标注,构建语义标注空间,利用统计方法分析关键词信息和语义信息之间潜在的关联,从而在现有语义模型之上构造一个语义关联层,融合各种语义模型,屏蔽其异构性,支持语义互操作。论文介绍了模型的理论,定义了相关的概念,给出了计算方法;将基于SAM的语义计算与基于本体的逻辑推理想结合实现基于语义的应用:并在此基础之上设计了一个Web异构信息检索框架。   (2)提出了异构语义标注提取的相关算法。从语义Web中提取本体和基于本体的语义标记,从Web2.0中提取大众分类法和社会标注等语义相关的知识和语义标记;在其基础之上构造语义标注空间,进行SAM建模,学习语义相关性矩阵知识;进而进行本体学习和社会标注聚类。   (3)提出了Web信息采集中语义相关度分析方法。针对SAM表示的特定主题,给待采集URL与主题的语义相关度进行评分和排序;对于采集获得的网页,利用不同的语义模型进行语义抽取,并计算其与给定主题的语义相关度。通过实验验证了所提出的方法的有效性。   (4)设计了关键词-语义双向索引,进行了基于异构语义的信息检索研究。实现了异构语义查询扩展、基于SAM的网页语义相似度计算、以及元搜索结果融合。实验结果表明该方法可以有效利用相关的语义知识实现Web信息检索。   基于上述研究,本论文最后实现了一个基于语义的Web异构信息检索原型系统,并将其应用于构建基金评审自动分配系统。  
其他文献
图像存档与传输系统(PACS,Picture Archiving and Communication Systems)的发展推动了医院信息化建设的发展,也带来了新的问题。当前医院环境下各种影像胶片输出设备并存,支
前向多层神经网络对小规模数据集具有良好的学习和分类性能,但随着样本数和类别数的增加,不仅其训练时间大大延长,分类性能往往也会显著降低。本文以面向分类的大规模学习问题为
基于角色的访问控制(RBAC)的灵活性使其越来越受到人们的欢迎且在访问控制中逐渐占据了主导地位,但随着分布式系统的迅速发展,其缺陷也就逐渐呈现出来:众多的角色和权限间关系
普适计算是继分布式计算、移动计算之后一种新的计算模式,已成为当前计算技术的一个研究热点。普适计算强调由通信设备、计算机等构成的信息空间与人们生活和工作的物理空间的
本文针对国内外煤矿矿井普遍采用的安全监测/监控技术进行了系统性的研究,采用三层网络体系结构和近年来迅速发展的CAN现场总线技术,结合射频识别(RFID)技术,提出了一种包括环境
在网络技术日益发展成熟的今天,越来越多的企业意识到了构建良好企业级应用的重要性,纷纷开始实施SOA,而企业服务总线作为SOA落地的一种解决方案受到了人们的关注。另一方面,仍处
随着网络教育的发展,网络教学质量越来越得到人们的重视。在学习评价方案的选择上,如果继续沿用传统的评价手段与评价方法,难以适应远程教育的快速发展。有效的学习评价方案,能引
随着软件技术的发展和互联网的普及,软件系统的规模逐渐增大,软件的复杂性不断地提高,软件开发经常处于失控状态,软件产品的质量无法得到保证,软件的结构复杂性成为影响软件
网络的发展与普及,伴随着嵌入式与自动化技术的应用,促成家庭网络为越来越多的人们所关注。同时,无线移动通讯技术的广泛应用使得人们对家庭网络提出了更高的期望。将家庭网关与
当前,普适计算正逐渐成为主流的计算模式,草图交互以其自然、直观、便捷,以及对几何、时序和空间关系的强大描述能力等特性,并随着近年来便携式和小型化移动设备的兴起和推广逐渐