论文部分内容阅读
随着互联网的不断发展,不同的人物共享同一个人名或是同一个人物拥有多个名字已经成为很普遍的现象,这也导致了“人名歧义”问题的出现。同时,人名歧义给人名查询、人物关系挖掘、敏感人物的信息过滤等应用带来了众多不利的影响,因此,近年来国内外开始逐步关注于人名消歧任务的研究。目前现有的方法大都是利用文档中的特征信息对出现人名的文档进行聚类,即将指向同一个人的文档集聚成一个个单独的类。然而,如何确定文档中出现的歧义人名所指向的现实生活当中的特定的人,仍然是一个亟待解决的问题。本文提出了一种基于人物本体的中文人名消歧方法,主要工作包括以下几个方面:第一,构建出一个人物本体来建模人物的各种属性。采取斯坦福大学开发的本体构建“七步法”,以及人物的各种属性名称(如国籍、职业等),对人物本体中的概念及其层次结构等方面进行定义。第二,提出面向半结构和非结构文本的人物属性抽取算法。针对人名词条在百度百科中的百科名片(半结构)和人物简介(非结构)这两类信息,分别研究出基于HTML结构特征、基于自然语言理解和规则相结合这两类方式来对人物属性信息进行抽取。第三,提出基于Jena和网络数据源的本体实例化算法,自动构建人物本体实例库。第四,设计了一种新颖的自顶向下的人物本体实例树匹配算法。本文首先提出从人物本体的概念层级和属性值层级上来研究人物本体实例之间的相似性。然后,结合人物实例的总体相似度衡量方法,提出了一种人物本体实例树匹配算法框架来解决人物本体实例匹配问题。本文依次采用CLP2012评测会议中的人名文本集和网络中的中文网页文档集进行实验,人名消歧的总体F值分别达到76.27%和75.01%。结果表明,本文所提的方法可以有效地解决中文人名的实体链接问题。同时据调查统计,目前百科中已收录的人名词条已达47万之多,因此,对于当前网页中出现的歧义人名,我们的方法是适用而且有效可行的。