论文部分内容阅读
人们在传统搜索引擎上所用到的关键字搜索技术发展成熟,是当今最流行的搜索方式。但是用户输入关键字,搜索自己想要的东西,想表达的意思仅仅用几个关键词并不能完全表达清楚,而计算机却只能根据关键词作全文匹配,常常不能达到用户想要的效果。比如,“椅子”这个词,它本身的属性包括了椅子的材质,形状,设计工艺,制作厂家,制作时间,地点等等,这一系列潜在的属性构成了一个复杂的基于语义的关联网。单纯的关键词匹配已经不能适应人们对搜索更精细化,人性化的要求。下一代网络WEB3.0”语义网”在搜索方面的研究侧重于具有语义分析能力的搜索引擎,要求搜索引擎能够理解人类的自然语言,并且具有一定的推理和判断能力。本文提出了一种基于面本体的情境搜索模型(Context Search Based on Faceted Ontology, CSFO), CSFO模型构建面本体FO来表示信息搜索领域的各个属性面,构建情境本体CO来创造用户搜索的当前情境,CSFO模型的主要思想根据情境本体CO对用户输入的关键字进行语义扩展,生成相应的搜索本体SO,通过面本体FO标注独立数据源的异构文档,最后利用相关的本体匹配算法进行搜索本体与面本体的本体匹配,从面本体中匹配出与当前搜索本体最相似的结果本体RO,实现情境搜索。CSFO模型旨在为用户提供更符合用户当前情境的搜索结果。本文的研究工作主要包括以下五个方面:第一,本文将本体技术整合到信息检索中,构建多个不同的本体数据模型表示不同的信息。本文用到的本体数据模型包括:情境本体CO,搜索本体SO,面本体FO,结果本体RO。CO用来表示用户的情境信息,SO来表示用户当次的查询信息,FO来表示被搜索的相关领域信息,RO用来表示当次的查询结果。第二,本文用搜索本体模型SO代替关键词进行搜索查询,将用户情境信息引入搜索系统。本文利用情境本体模型中的概念词汇,对用户在客户端输入的关键词进行语义扩展,规范用户自然语言的查询输入,提取有检索意义的概念词组通过基于情境本体的语义扩展算法SECO生成完成当次搜索的搜索本体模型。用搜索本体代替关键词进行信息匹配,扩大了用户情境信息表示的完整度。第三,本文从不同的独立数据源构建面本体FO,规范搜索信息的表示形式。本文通过下面四个步骤:a.产品系列分类;b.实体扩展;c.生成面单元FU及概念映射;d..面建模;来构建一个完整的特定领域的面本体。每个面本体从实体(Entity),性质(Property),活动(Action),修正(Modifier)这四个面进行概念分层。本文将被搜索的信息用面本体进行表示,不仅能规范各个独立数据源的信息,而且能通过面本体扩展各实体,概念及其属性之间的相关关系,丰富情境搜索结果的内容,提高搜索结果与用户情境的相关性。第四,本文通过搜索本体SO与面本体FO的本体匹配从用户角度,返回查询信息,实现情境搜索。本文用到两种本体匹配的方法进行搜索本体与面本体的本体匹配,其中一种是基于图的情境搜索算法CRG,该算法借鉴了相似度洪泛算法的思想;另一种是不一致本体推理算法CRIO,是将面本体,情境本体,搜索本体,结果本体全部抽象成不一致本体,通过不一致本体的推理,从面本体中匹配出与之相似的搜索本体。无论是哪一种方法,最终目的都是在面本体中匹配出与搜索本体最相似的面本体的子本体,然后通过相关函数将子本体转换成由标题,日期,链接,内容这几个关键字段组成的数据信息,形成搜索结果,返回给用户实现情境搜索。第五,实验分析与评价。为验证CSFO模型的可行性和有效性,通过仿真实验对该方法进行了小数据集的模拟与实现,同时,通过即有的平台数据集进行对比分析,实验结果表明,本文提出的方法应用于搜索引擎,与传统的信息搜索比较,具有更好的查全率与查准率。本文的研究对语义搜索具有一定的促进作用,对推进语义搜索的应用研究从理论层面过渡到工业实现层面也有积极的意义。