论文部分内容阅读
随着互联网的迅猛发展,互联网所覆盖的范围越来越广,同时互联网上的信息也呈爆炸性增长。面对如此庞大的信息量,即使采用目前的网络目录或者搜索引擎技术,要找到所需要的信息以及信息的组合,仍然是非常困难的。如何让机器能够简单的理解Web上的信息,在找到Web上的信息并交给人类以前,尽可能的理解人类的意图,并分析Web上的信息,增加最后人类找到正确目标的可能性甚至完全替代人类的工作,是语义Web所要达到的目标。语义Web不是一个独立的概念而是对现有Web的一个扩展。语义Web由知识表达、本体和代理三个部分构成。本体是概念的集合,另外在本体中还包含概念的属性以及概念之间的关系。语义Web中的本体是以描述逻辑为基础的,因此它支持简单的推理能力。这使得语义Web比传统的Web对信息的描述能力显著增强。另外,计算机之间可以通过理解互相的本体来达到交流知识的目的,甚至人类也可以通过专家系统本体来和机器交流知识。本体赋予语义Web语义信息,因此围绕本体对互联网信息进行的操作的研究成为语义Web研究的一个重要领域。这些领域包括本体标注、本体集成、本体构建以及基于本体的机器学习。目前本体的研究存在以下问题:1)目前实用的本体应用十分有限。大多数的本体应用仅仅停留在本体理论阶段。2)已开发出来的本体内容不够深入,形式化程度不够。3)本体的应用基于机器对本体的理解,相应关于本体理解的理论研究相对有限。针对机器对本体的理解,本文提出了对信息的一种新的本体描述方法和用于本体比较的本体相似算法以及具体的应用,在这方面做深入的探索。本体的使用不仅仅是为了在一个小的领域内实现计算机对信息的理解和交流,更是为不同领域计算机对信息的理解和交流提供了一种表达方式,所以本体在知识表达领域具有重要的作用。基于本体工作的系统往往是由很多本体组成。在这种表达方式的基础上,对本体的进一步处理,才是计算机理解语义Web中信息的核心。对本体的操作都是以计算两个本体之间的相似度或者两个本体的部分之间的相似度为基础的。本体相似主要是针对本体中的实体,从图论、字符串或者语法等角度来比较两个本体的异同。本体相似的应用场景主要包括本体(或概念)映射、本体集成、本体比较、本体扩展、本体模块化以及WebService中业务发现,业务组合等。现有的本体相似度计算技术主要从下面的八个角度出发来计算本体相似度的:1)从字符串的角度;2)词义或者自然语言的角度;3)原子概念的可比较属性的综合比较;4)原子概念的类型以及与其他原子概念的关系;5)本体的结构或者本体构造的图或者树的角度;6)推理的角度;7)机器学习的角度;8)应用场景。本体相似技术还处于刚刚起步的阶段,很多方面需要界定和研究。只有完善的定义了本体相似,才能在对信息进行本体描述的基础上,完成对信息的计算机理解和处理。另外,关于本体相似计算的性能以及服务质量问题,也是一个全新的尚未被提出和界定的领域。在处理本体相似过程中,动态、高效是未来的发展方向。语义Web上每个文档都是一个本体,这些文档可以构造成大的本体,而在这些文档内部,又可以拆分成小的本体。在语义Web中可以用一个或者一族本体对某个领域的知识进行归纳和描述,这些本体称为领域本体。在领域本体中定义了领域中基本的概念、概念的属性以及概念之间的关系。受限本体是指用领域本体描述的本体内的信息。在语义Web中,在完成对标注后信息的本体描述后,需要计算两个本体的相似度来判定某个本体是正例或反例。目前已有的本体相似算法都是通过比较语法来计算本体的相似度,然而当前所有包含内容的本体都是受限本体,它们都继承自同样的领域本体,因此在受限本体之上计算相似度需要构建新的相似算法把本体比较量化。已有的本体匹配算法大多数都没有应用本体的推理能力对本体中包含的关系进行深入的挖掘,这主要是因为在应用推力能力的过程中,很容易使算法陷入循环。本文提到的本体匹配算法,仅仅应用了第一次推理的结果来比较实体之间在关系方面的相似度,这就避免了陷入循环,同时又能够应用本体的推理能力。受限本体相似的核心原则是充分利用本体关系推理过程中生成的关系集计算相似度。本体的相似度定义从根本上是为了应用服务的,所以基本可比属性的定义以及权重的定义都由应用来决定,同时二阶的定义一方面充分利用了本体自身的推理能力,另一方面又避免了因为引入关系而造成的循环计算。信息抽取是自然语言处理和人工智能的结合。信息抽取系统的主要功能是从文本中抽取出特定的事实信息。信息抽取系统中的关键技术主要包括:自然语言处理、命名实体识别、篇章分析及推理和知识获取。信息抽取过程包括学习过程和应用过程。学习过程是一个机器学习的过程,主要针对特定领域内的文档集合进行学习,而应用过程是针对学习的结果在未知文档上进行实践。现有的信息抽取算法基本上都是采用自然语言处理工具对文档进行标注并学习。这些算法按照学习过程的不同可以分为三类:规则学习、分类学习以及统计学习。这三个分类也不是孤立的,例如在规则学习算法中,对规则的取舍通常就要用到统计。为了深入挖掘标注后文档中的关系,提高信息抽取的效率,我们提出了用语义Web中的本体对自然语言处理后的文档进行二次描述,然后应用合理的机器学习过程来学习并应用学习结果到未知文档中。在本文中我们的机器学习工具是支持向量机和人工神经网络。本体自身的简单推理能力和机器学习的合理应用是算法取得优秀结果的关键。这个算法称为基于本体关系匹配的信息抽取(OERM)。OERM算法中关键的技术是本体表达方式、本体比较。采用本体来描述待抽取字段的上下文关系,对原始文本内容进行了深入的扩展。这是以往基于规则的抽取或基于统计的抽取技术的描述能力所未涉及的;而且通过本体简单的推理能力,还能够对受限本体中蕴涵的关系进行深入的挖掘。另外,ANN和SVM-UM很适合这种数据稀疏而且有相当程度的噪音的应用,在采用合理的终止条件判定方案后,可以达到了良好的效果。OERM算法在两个数据集上的评测都优于已有的信息抽取系统,另一方面,实验结果显示,应用一个小的训练集合,OERM算法就能够快速的学习到足够的知识,并提供可观的性能和很尖锐的一个学习曲线。OERM算法很快就达到了很高的召回率和准确率,这也说明了从小的训练集中,OERM算法挖掘了更多的关系因此很好的克服了数据的稀疏造成的干扰,而数据的噪音通过机器学习很好的屏蔽和过滤掉了。召回率recall相对较低,表明OERM算法对未知信息的扩展度还有待提高。我们还把受限本体相似应用到Web服务检索中,并最后构建了一个基于本体相似的中文信息抽取的试验系统。