论文部分内容阅读
信息时代万维网已经成为人类获取信息的主要渠道之一,在人们的日常生活、工作学习、商业科研等社会生活中扮演着日益重要的角色。与此同时,网页数量呈指数级的飞速增长,而当前万维网实际上只是一种面向人的存储和共享信息的媒介,缺乏语义互操作性,机器无法智能完成从海量信息中快速、准确地定位到所需信息。为此,Tim Berners-Lee提出了语义Web;语义Web是智能网络,它脱胎于万维网;万维网面向的是文档,而语义Web面向的则是文档所表示的数据;通过给万维网上的文档添加机器可以理解的语义,从而使整个万维网成为一个通用的信息交换媒介。对当前Web中呈无结构和半结构的信息添加语义信息,将Web的状态从机器可读提高到机器可理解就是语义标注的主要研究内容;语义标注是语义Web实现的基石。现有语义标注系统还存在以下一些问题:标注系统一般对通用概念进行标注,不能根据不同领域知识的特点进行有效标注;手动、半自动的标注或多或少都需要人工干预,不利于大规模应用;而自动化的语义标注准确率还有待提高。另外,当前语义标注系统几乎都只面向英文文档进行标注,中文文档的语义标注系统寥寥无几。本文介绍和分析了语义Web、本体以及语义标注技术的现状,并着重研究了如何应用语义相似度的方法实现领域文档自动语义标注的问题。本文的主要工作和特色如下:①针对现有标注系统对领域文档标注的不足和缺陷,本文基于领域本体引入了对命名实体进行语法和语义分析的思想,提出了结合维基语义相似度和编辑距离的标注方法。该标注方法充分考虑了Web资源与本体知识在语法上的形似度和语义上的相似度,从这两方面综合度量两者之间的关联程度,在领域本体的指导下使用本体知识对领域文档进行标注并取得了良好效果。②对传统标注工具进行分析时发现这些工具几乎都无法标注中文资源,为此,对中文资源的特点进行分析后,提出了结合维基语义相似度和百度距离的标注方法对中文领域文档进行标注,实验表明该方法是有效的。