论文部分内容阅读
随着互联网上信息的不断增加,用户很难快速而准确地搜索到所需要的信息,这是因为当前的Web信息无法被机器理解,只能通过用户的阅读来理解。语义网的出现,就是为了解决这样的问题。语义网是在当前网络的基础上增加一层,在该层上利用本体为网络信息添加形式化的描述,并通过标注的形式表现出来,使其成为机器可理解的信息,更利于人机交互。为网络信息添加语义的过程就是语义标注。语义标注是全面实现语义网的基础。目前的语义标注工具大部分是单本体支持的,但通常网页信息会涉及到多个本体。因此,本文提出一种多本体支持的语义标注模型。该模型包括四个模块,分别是本体集成模块、信息抽取模块、信息标注模块和信息检索模块。本体集成模块首先对关联的多个本体进行集成,然后对集成后的本体进行解析,根据本体知识生成JAPE规则;信息抽取模块是在JAPE规则的指导下,借助基于本体的信息抽取技术抽取出概念、实例和关系;信息标注模块中采用文档综合相关度算法,通过计算文档相关度,整合标注信息并将其存入标注库。在本模型中,采用标注信息与网页分离的存储策略,旨在加强信息标注与网页的独立性,便于标注信息的更新和维护。用户通过调用信息检索模块进行信息查询,从标注库中可以检索出用户需要的信息。针对该模型,本文设计实现了一个原型系统MASAS(Multi-ontologies Aided Semantic Annotation System),该系统通过Web Service的方式提供给用户。最后利用OAEI2008测试集对系统进行了实现验证,实验结果表明本文提出的模型和算法是可行的,语义标注可达到较高的准确率。