论文部分内容阅读
随着互联网2.0的兴起,利用集体智慧的协作式编辑系统被广泛地用于知识管理中。维基系统就是这样一个例子,其中维基百科就是流行的一种维基系统。维基百科是目前最大的免费在线百科全书,它是由广大的志愿者来共同编辑的。维基百科具备以下作为一个潜在的语义数据源的特征:广泛的知识覆盖面、明确定义的结构化信息和随着世界知识变迁而变迁动态更新的特点。语义维基是对维基的一种扩展,利用语义万维网的技术对维基元素增加显示的语义。然而,尽管这种自由的、协作式的编辑方式促成了维基百科的成功,但是这同时也带来了一些问题。尤其地,它会导致大量的标注缺失和噪音标注的问题,这会影响到文章的内容质量和妨碍术语的收敛。当前,低质量的标注不得不由一小批专家去修改,这也成为了一种效率的瓶颈。同时,这些专家也是做了大部分编辑工作的最活跃的贡献者,对他们而言,这无非是一个巨大的负担。语义维基百科也面临同样的问题:缺少标注的语义和语义标注者。特别地,对一个普通用户来说,要编辑一个高质量的维基百科文章,必须处理好当前编辑的文章与系统现有的文档集的关系。这就要求用户对系统文档集以及其包含的知识有一定的了解,在编辑语义维基时还要理解其潜在的语义技术。他们要面临以下一些问题:1)什么时候有必要提供一个超链接指向一个被引用的实体?如何正确定位到它?2)可以用哪些类别标签来恰当地标识这篇文章?3)可以用什么信息盒模板来描述文章主题对象的属性?4)在编辑语义维基百科的时候,实体之间是否有潜在的语义关系?如果存在,则应该用什么谓词来标注关系的类型?在本课题中,我们试图通过知识抽取与知识重用来帮助用户回答以上这些问题。知识抽取是知识重用的前提和依据,而知识重用是知识抽取的目的。我们受到协同过滤的思想的启发:根据相似用户的评价行为来产生对当前用户的推荐。类似地,我们通过标注推荐的方式来实现知识重用。为了达到这个目的,我们首先要从当前维基百科中的标注的数据集中抽取有用的知识作为我们作推荐的依据或背景知识,这些知识是结构化或半结构化的实体语义特征,包括:实体的术语词典、实体的类型、实体之间的关系特征等。我们还将提出一个统一的标注推荐算法框架来重用所抽取的知识,并将这个知识重用方案应用到当前的维基百科的编辑中去。我们将展示原形系统EachWiki,它对维基百科提供了以下的推荐服务:链接推荐、类别推荐、信息盒推荐、以及关系推荐,通过这种方式,使得用户在编辑维基百科时可以充分利用集体的智慧。这些推荐服务不但可以便利用户编辑高质量的维基百科知识,还可以帮助构筑语义维基百科。最后,通过对各个推荐服务的实验评估充分证明了我们方法的有效性、高效性和实用性。