论文部分内容阅读
随着互联网的飞速发展,如何从爆炸式增长的信息中高效地找到自己所需信息成为信息检索研究的重要目标。其中,面向人名的检索有着非常广泛的应用。但是在中文互联网环境中,人名重名的现象非常严重,这给面向人名的检索带来了巨大困难。为此,人名消歧的研究近年来成为信息检索领域的重要课题。分析显示,人名带来的歧义性既可能来自于文档内代词导致的共指歧义,也可能来自于多个文档之间对应于不同实际个体的重名歧义。因此,中文人名消歧包括文档内人名共指消解和跨文档人名重名消歧。共指消解的典型方法中,基于规则的方法可移植性比较差;而基于统计方法能够获得准确率和召回率的平衡,但对训练数据依赖很大。在跨文档重名消歧研究中,基于人名上下文词语特征的方法因缺乏消歧需要的知识而遇到消歧性能的瓶颈;而利用社会网络等外部知识的方法则受到所使用外部知识的限制而很难进一步提升消歧性能。为此,本文进行了以下研究。第一、本文研究了通过结合人名构成规则和人名出现的特点改善人名识别结果的方法。第二、针对文档内的共指消解问题,设计实现了一种结合汉语语言规则和统计学习的方法,对候选名词短语对是否存在共指关系进行判定,实现文档内共指消解。该方法在CoNLL2012共指消解中文数据集上达到评价指标0.651的成绩。第三、在应用共指消解方法确定人名准确上下文的基础上,提出了一种结合百科知识和利用互联网检索验证的跨文档人名消歧方法。该方法在CIPS-SIGHAN2012中文人名消歧数据集上达到准确率82.4%,召回率83.4%的性能。本文的贡献主要包括:第一,本文设计实现了一种有效地结合规则和统计的共指消解方法,该方法在2012年的CoNLL中文共指消解国际评测中获得国际第四和国内第二的成绩;第二,本文提出的利用百科知识的方法可以缓解实体信息不完整的问题,能够更加精确地衡量实体相似度,提高人名消歧的准确率,而利用互联网验证的方法则缓解了知识短缺问题,提高了人名消歧的召回率;第三、本文提出的结合共指消解的跨文档人名消歧方法能够更好地消除人名歧义。