论文部分内容阅读
人名歧义是指现实生活中多个人物实体共用同一个人名而造成身份不确定的现象,这在国内外文本中普遍存在。在信息爆炸的互联网时代,人作为社会活动的主体,是构成巨大信息网络的主要元素,因此人物检索在信息检索中占据相当重要的地位。目前,主流的搜索引擎对人物检索的返回结果是包含检索人名字串的庞大网页集合,不利于用户查找与筛选信息。人名消歧的任务是解决网络传播、信息检索等中出现的人名歧义问题,主要研究如何把重名人以及不相关的网页按照现实生活中的人物个体进行划分,使用户能够快速、方便地找到需要的信息。人名消歧在热点人物跟踪与发现、个性化搜索、自动问答等领域都有广泛的应用,已经成为近几年发展起来的自然语言处理技术的一个研究热点。中文人名消歧研究起步较晚,加上中文信息处理的特殊性,目前仍然存在诸多急需解决的问题。本文研究来自网络语料的中文人名消歧问题,针对不同方面存在的问题,在文本相似度和聚类方法上提出相应的改进,目的是提高人名消歧的总体性能。以下概括了本文的主要工作:1.本文在对人名消歧进行了充分地调研上,归纳并总结了人名消歧的基础知识,包括了人名消歧的基本任务、处理步骤、目前面临的难题、用到的相关技术等。2.针对向量空间模型忽略特征项语义和语序的问题,结合最长公共子序列算法对文本表示模型进行研究,提出一种基于改进最长公共子序列的人名消歧方法。该方法首先将文本转化为有序的特征序列,然后结合词语相似度计算最长公共特征子序列,再利用特征项权重来构建文本相似度矩阵,最后进行自底向上的层次聚类。实验结果表明,相对于传统的余弦值聚类方法,LCSC方法在人名消歧的P-IP指标上,平均F值由74.2%提高到了84.9%;相对于最长公共子序列方法,总体性能也有3.7%的提高。3.为了缓解人名消歧中聚类算法带来的大类现象,提出一种结合职务或职称信息与主题信息的聚类方法。该方法首先识别人物的职务或职称属性,根据人物身份的不同进行初步划分,并对合并的簇建立主题集。然后,按照改进的文本相似度计算方法进行基于主题信息的层次聚类。实验结果表明,该方法有效地缓解了大类现象,并在P-IP评价指标的F值上比传统的聚类结果提高了将近13%。