论文部分内容阅读
随着互联网的发展,web资源呈现出高速增长,但目前互联网中的信息处理自动化低,信息之间关联性差,即使借助功能强大的搜索引擎,由于冗余信息过多,也无法快速准确地从web资源中获得有效信息。为了解决这样的问题,Web创始人Tim Berners-Lee于1998年提出了语义Web的概念,它在现有Web基础之上新增了扩展层,并在这层上对Web信息进行形式化的描述。因此通过本体词汇标注Web资源,将Web上资源的状态从机器可读提高到机器可理解的程度,并以此为基础发展语义Web是高效获取Web信息的解决之道。现有的大部分标注方法自动化程度低,适应性较差,效率低下。本文对本体标注方法进行了系统的研究,探索出了一种基于Bootstrapping的本体标注新方法。先对给定的本体进行解析,生成规则文件,然后通过文本分类筛选出领域文档。之后,采用Bootstrapping的方法进行信息标注抽取和Ontology推理,几次循环之后,只利用少量的训练文本就能达到较好的标注效果。本文主要工作如下:①提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法。由于待标注文本往往复杂多样,若直接进行信息标注、抽取,工作量巨大且标注错误率高。因此,在标注之前,需要先进行文本分类,抽取出与领域Ontology相关的文档。为了使分类器能够在小样本情况下对文本进行正确的分类和标注,本文提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法,该算法只需少量的训练样本作为种子集,来训练分类器,然后从分类的结果中挑选出部分置信度最高的文本加入到种子集中,作为新一轮的训练样本,重复训练直到结束。这样,只通过少量训练样本就能达到大量训练样本训练的结果。②提出了一种利用Bootstrapping和规则对文本集进行标注的方法。首先,根据规则文件对文本集进行初始标注,得到标注好的文本集。然后,利用实例的上下文关系,借鉴WHISK算法对抽取规则进行归纳,生成新的规则文件,标注新词汇。接着,抽取标注过的信息,填充到本体文件中。最后,借助于Ontology推理机,推理本体文件,去除错误数据,并修剪错误的规则,经过多次迭代,从而使模型能达到自动抽取新实例,丰富、完善本体的目的。待迭代完成后,得到标注好的文本集合和丰富的本体库。③提出了一种基于Bootstrapping的本体标注方法。该方法将领域文本的分类和标注结合成为一个整体模型,模型每次迭代后扩充的本体库使得分类器得以继续进行,而由分类产生的未标注领域文档又能进一步扩充本体库。循环反复,有效的达到了利用小样本训练集进行本体标注的目的。经过大量的实验表明,该方法具有较好的分类效果,对本体的标注具有较高的准确率和召回率。