论文部分内容阅读
人名歧义是一种身份不确定的现象,指的是文本中相同的人名指向现实世界中的不同实体人物。人名消歧具有很大的实际应用价值,是搜索引擎、社交网络和人名知识库构建等领域的基础性研究,在个性化搜索、自动问答、多文本摘要、热点人物跟踪与发现等领域都有着广泛的应用。通过人名消歧获得了感兴趣人物的相关文本后,人们往往还关心与其具有特定关系的人物,仅仅识别出文本中的人物往往无法满足实际应用需求,这些人物之间存在着何种关系更为关键。因为文本中的人物关系是分散的,所以更需要从文本中快速准确地自动抽取人物关系。跨文本人名消歧是区分多文本中同名的不同人物实体的过程,是人名检索技术的重要组成部分,近年来成为自然语言处理中的一个重点问题。本文针对文本分析不够深入、表示不够精细造成的信息丢失和噪声干扰的问题,提出了一种融合句义特征的三阶段人名消歧方法。该方法首先针对查询词常作为普通词出现的特点,在文本预处理后采用启发式规则的后处理方法判断其是否是人名;然后根据特征模板提取局部名实体特征及职业,通过句义结构模型进行句义分析,提取句义特征,引入重叠系数计算句义特征相似度,利用词袋模型统计词频,构成三层特征空间;最后使用基于规则的分类和两阶段层次聚类算法实现人名消歧。在CLP2012中文人名消歧语料上进行实验,结果表明该方法的F值达到88.79%,跨文本人名消歧方法中引入句义特征可进一步提升其处理效果。人物关系常常不以结构化的形式表达,人们对自动高效的人物关系抽取方法的需求是迫切的,本文针对三元组特征分析不够深入,种子词需要人工设定等问题,在抽取并分析关系特征词所承担的句义任务的基础上,提出了一种自动的人物关系抽取方法。该方法首先利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典;然后通过元素距离最优化规则构造语句的三元组实例,融合词法层及句义特征构造三元组特征空间;最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别。在BFS热门人物检索语料上进行实验,结果表明该方法的F值达到83.8%,实验效果良好。