论文部分内容阅读
当前基于P2P网络的研发主要集中于文件共享的应用,但是现有P2P系统特别是结构化P2P系统大都仅支持粗粒度(文件水平)的共享,检索机制只支持基
于关键词的字面信息的精确匹配,使得检索方法只支持弱语义,甚至缺乏语义;并且由于缺少对信息内容的一致的语义描述,检索过程难以找到与需求内容相关的信息,难以实现相关信息的语义融合。
本体是语义网技术的核心,其目标是提供对领域知识的共同理解,确定领域内共同认可的词汇(表示概念),并从不同层次形式化地给出这些词汇语义以及词汇之间的关系。
本文研究内容主要聚焦于P2P网络的语义检索机制。将语义网技术,特别是本体与结构化P2P网络相集成,在充分利用结构化P2P网络的可扩展性,负载均衡等优点的基础上,通过本体对领域知识的描述来增强对信息内容的描述能力,着重解决P2P网络仅支持弱语义,甚至缺乏语义的问题。并深入研究其中关键技术所面临的挑战,取得了以下成果:
1.提出了基于本体的文档描述模型
结合语义标注技术及文档的元数据描述形式,提出了P2P网络中基于本体的一致的文档描述模型。文档描述模型采用两层体系结构,融合本体概念、本体关系以及文
档关键词,从语义、语法两个方面对文档进行描述。通过定义一致的文档描述模型,解决了P2P网络检索中的数据建模问题。
2.提出了基于描述逻辑推理的本体映射方法-LMATCH
P2P网络节点自治性和对等性要求节点独立的构建和维护本地本体,造成节点本体之间存在异构性。本文提出了基于描述逻辑的本体映射方法-LMATCH,解决了P2P网络节点本体异构问题。LMATCH方法充分考虑了概念在本体中的语义环境,利用描述逻辑表示了概念在本体中的语义,通过对概念的逻辑描述形式之间逻辑关系的推理,发现不同本体中概念之间的语义关系,进而实现异构本体映射。LMATCH方法产生的本体映射结果是概念之间更加直观和明确的语义关系,而不是不包含任何语义信息的相似度数值。
3.提出了结构化P2P网络基于异构本体的语义检索方法
在结构化P2P网络中引入基于概念的两级分布式索引机制:本体概念分布式索引和文档描述符分布式倒排索引。在基于本体的文档描述模型和LMATCH本体映射方法的基础上,实现了P2P网络的语义检索。语义检索的过程可以描述为:根据本体概念分布式索引对检索请求进行转发,并在转发路径中的节点上查询文档描述符倒排索引,通过LAMTCH本体映射方法实现检索请求和文档之间基于语义的匹配。
4.在专家的帮助下构建了经济学领域本体-EOntology,并以EOntology作为基础本体开发了P2P网络语义检索原型系统-EPSS
EOntology以本体的方法和技术对经济学领域内容进行了组织和形式化表示,将经济学领域划分成知识(Knowledge)、理论(Theory)和方法(Method)三个主要范畴,从三个面对领域内容进行了描述。EPSS系统以EOntology作为构建节点本体的基础本体,在系统中实现了基于本体的文档描述模型、异构本体映射的LMATCH方法以及在二者基础上的P2P网络语义检索方法。同时,EPSS系统还支持基
于关键词的全文检索,作为基于本体的语义检索的补充。
P2P网络语义检索的研究不仅具有重要的理论价值,而且还具有广阔的应用前景,本文针对其中的一些问题展开了研究和讨论,所做的工作仍有待不断的完善和进一步的发展。