论文部分内容阅读
随着互联网信息的指数增长,用户很难快速精确地找到自己想要的信息。这是因为现有的网络信息是设计给用户阅读的。Tim Berners-Lee提出的语义网概为了解决这个问题。语义网是一种智能的网络,在现有的网络上增加一层语义信息,而这层信息是利用本体来对网络内容进行形式化的描述,并通过标注来表示出来,从而实现计算机能理解网络信息的内容。语义标注通过为网络内容增加语义信息,从而实现语义网。 目前大部分的语义标注工具都是基于单本体的,而页面通常涉及多个不同领域的内容。基于单本体的语义标注工具不仅对本体要求严格,同时无法覆盖页面更多的内容,而且对标注结果的检验无法实现自动化。本文提出了一种基于多本体的语义标注模型。该模型包括四个部分:本体匹配模块、多本体语义信息抽取模块、语义标注模块和结果验证模块。本体匹配模块对多本体的概念进行分析,得出多个本体不同概念之间的关系,并根据概念的性质,形成JAPE规则;多本体语义信息抽取模块在多个本体的指导下,使用基于本体的信息抽取技术抽取出本体中概念的实例;语义标注模块通过将信息抽取的结果与本体相连接来进行语义标注;结果验证模块根据不同本体的概念之间的关系对语义标注的结果进行验证,并进行修复工作。在本模型中,语义标注结果没有嵌入到网页中,而是独立存储起来,这样做便于语义标注信息的检查和更新。 针对该模型,本文设计同时实现了一个原型系统,该系统通过实现Web服务的方式实现了多本体语义标注的功能。最后通过高校的招生信息页面对系统进行了验证,实验结果表明本文提出的多本体语义标注模型和验证算法是可行的,语义标注达到较高的准确率,结果验证模块自动指出了大部分语义标注结果不准确的地方,减轻了检查语义标注结果的工作难度。