论文部分内容阅读
互联网正在以惊人的速度发展,已经成为人类获取信息和知识的重要渠道,正逐步成为现代人生活的一部分。但是不断膨胀的网页数量同时意味着不断膨胀的海量数据。然而蕴含其中的海量的有价值的信息却不容易被发现,因为数据必须经过合理有效的处理才能从中挖掘出有价值的信息。为了使无结构或者半结构化的数据能够被计算机快速的理解并进行相应的处理,人们便提出了语义网的概念。语义网的目的是使计算机能够理解Web文档的语义,从而可以共享和重用不同源的数据,使人们能和计算机进行交流与合作。语义网的实现需要为现在互联网上存在海量数据提供可用的广泛的语义标注。凭借特定的本体为Web文档增加语义信息即发布Web文档的语义信息就是语义标注。语义标注是语义网的基石。能对领域中的命名实体进行标注的语义标注系统还较少,目前大多数的语义标注系统只标注一般性的概念。并且这些系统在进行语义标注的时候或多或少的需要人工的干预。偏低的准确率也是自动语义标注需要解决的问题。针对现有语义标注系统的缺陷与不足之处,本文以葡萄酒领域为研究对象提出了一种结合WordNet的领域语义标注方法。首先本文引入WordNet中基于信息容量的相似度计算方法并将其与基于编辑距离的相似度计算方法,从而能从语法和语义两个方面衡量命名实体与葡萄酒领域本体中的概念类和实例的相似度。实验结果表明使用这种相似度计算方法的语义标注能获得较好的准确率和召回率,在其与基于编辑距离的相似度计算方法结合后准确率和召回率能获得小幅度提升。本文在研究了众多WordNet相似度算法之后发现以WordNet为基础的计算语义相似度的方法大多依赖名词的树形层次结构,为了打破这种层次结构的束缚,将更多语义元素考虑进去,本文对WordNet中基于共享信息量的相似度计算方法进行了改进,。实验结果表明使用基于共享信息量相似度计算改进的语义标注方法在准确率方面与基于信息容量相似度计算的语义标注方法相当,但召回率有明显提升;同时结合基于编辑距离的相似度计算方法后在准确率及召回率两个方面也有小幅度的提升。语义标注结果采用最新的Owl格式以非嵌入式的方式分离保存后,和嵌入式的标注结果保存方式相比降低了语义标注结果维护的难度,并能根据不同用户的不同需求进行修改。