论文部分内容阅读
当今世界是一个信息爆炸的时代,人们越来越依赖网络来获取信息。如何从海量网络数据中快速、准确的获得有用的信息成为了亟需解决的问题,在这种背景下,搜索引擎的出现在一定程度上解决了这个问题。然而随着互联网的普及,人们对搜索引擎的要求也不断提升,个性化,智能化,人性化的搜索引擎成为了下一代搜索引擎的研究方向。根据各大搜索引擎的搜索日志统计显示,人们对“人物搜索”这一个性化搜索的需求普遍而迫切,然而目前通用搜索引擎在搜索人物上的表现远不能满足人们的这一需求。要构建能够快速而精准的将用户检索的人物信息呈献给用户的人物搜索引擎,首要解决的就是人名消岐问题。近年来人名消歧逐渐兴起并成为热门的研究方向,受到了越来越多国内外研究学者的关注。国际上在英文人名消歧方面已取得了一定的研究成果,但由于中文信息处理的特殊性,中文人名消歧面临着更多挑战,还存在着许多亟待解决的问题。本文在已有的研究基础上,提出一种基于多阶段聚类的中文人名消歧方法。本文的研究内容主要包括以下几个方面: (1)本文根据人物基本属性的特点,将人物基本属性分为互斥属性和非互斥属性,并基于中文语言表达的特点,设计了一种中文人物基本属性的抽取方法。 (2)本文提出了一种基于多阶段聚类的中文人名消歧方法。首先,根据不同特征在人物区分度上的不同,本文把文档特征分成两类:强特征和弱特征;强特征包括:人物基本属性特征,命名实体特征,维基百科词条特征;弱特征也就是一般文本特征。本文又把这两类特征分成三个层次:人物互斥属性,强特征,弱特征,这三个层次在人名消歧上的优先级依次降低,用于算法的不同阶段中。本文提出的中文分歧算法共包括三个阶段:第一阶段使用人物互斥属性对文档进行互斥判断,得到文档互斥关系集合;第二阶段基于文档互斥关系集合,使用基于强特征的凝聚式层次聚类算法进行初步的人名消歧;第三阶段使用基于弱特征的消歧算法对上一阶段的输出结果继续处理,以期在不降低或较小降低前一阶段消歧精度的前提下,提高消岐的召回率。 我们使用CIPS-Sighan2010的标准数据集对算法的进行了评测,结果表明本文提出的基于多阶段聚类的中文人名消歧算法取得了良好的消岐效果,在Bcubed-F值上达到93.20,比CIPS-Sighan2010中文人名消歧任务第一名的算法高出1.89%。 (3)为了验证本文提出的算法在实际应用中的性能,我们从中文历史网页收藏系统Web InfoMal中抽取数据整理成网络数据集。网络数据集比CIPS-Sighan2010的标准数据集更贴近真实的应用场景。我们最后对本文提出的算法在该网络数据集进行了实验评测,并对实验结果进行了分析和总结。