论文部分内容阅读
人名歧义是一种实体对象的身份不确定的现象,是自然语言处理领域中的一个重要问题。随着全球互联网技术的发展以及大数据时代的来临,越来越多的互联网应用已经步入历史舞台。随着这些应用的兴起以及研究的深入,人名的实体指向在诸多新的应用领域中已经起到了至关重要的作用,包括在搜索引擎、社会网络和人名知识库构建等领域。目前,越来越多的应用都本着以人为本和私人定制的宗旨服务大众,因此如何有效地消除由于人名相同带来的歧义已经成为国内外非常重要的研究课题,而国内汉语人名歧义的研究也面临着巨大的挑战。所以本文的研究内容是旨在找到一套模型和算法,能够行而有效的消除文本信息中的人名歧义。本文人名消歧算法的主要研究思路,首先通过对包含有指定人名的文本提取出文本的关键词特征,利用这些文本的关键词特征通过算法进行比对来辨别文本间的相似性。根据文本特征的相似性来判断在不同的文本间出现的相同人名是否指向同一实体对象,从而实现人名歧义的消除。具体做法是利用TF-IDF算法对文本提取出来带有权重的关键词,生成文本的特征向量。利用TF-IDF算法能够有效地将词频与逆文档词频相结合,既反映出词语的反复出现的重要性也能够降低常用词的重要性。在对不同的特征向量利用空间向量的余弦定理的公式,计算出不同的特征向量间的相似性,并且利用向量间夹角的大小来判断人名歧义。实验过程中的算法设计从简单到复杂,在进一步对算法的特性和特征进行讨论之后,提出了算法的改进策略。提出了多特征融合的向量集、特征向量集的规范化修正、文本特征的向量内特征方向上增强以及多证据联合的相似性判断等一系列手段之后,进一步利用余弦相似性将一些文本的其它辅助特征融合到人名消歧算法中,形成了一种可扩展的补充。本文的实验过程中对于提出的人名消歧算法采用循序渐进,逐步对设计的算法进行完善和改进。经过实验结果表明,利用对文本生成的特征向量通过余弦相似性算法的特征比较,能够较为有效地实现人名消歧的目的。同时也提出了今后的改进方向,可以加入环境语境语义对文本特征的影响,从而可以完善本文的人名消歧算法。