论文部分内容阅读
随着网络技术的发展使互联网成为一个巨大的信息源。利用分散在各种科技信息系统中的科技专家相关信息可以构建基于Web的科技专家库,提供检索、遴选和其他主题的科技服务。但是来源于不同科技信息系统中专家存在同名现象,数据质量也存在差异,名字的歧义不仅降低了专家检索的准确性,而且会对后续的分析造成严重的影响,因此采集到的科技专家需要进行同名消歧后才能进入科技专家库。同名消歧是将有歧义且混淆在一起的真实个体区分开。按照课题组的需求,本文以科技专家库中的科研论文作者为研究对象,根据科研论文中存在着复杂的合作者关系,结合研究人员的研究领域特征,提出了基于合作者关系的同名消歧算法和基于可信合作者关系的分步消歧算法,论文的主要工作如下:(1)提出了一种基于合作者关系的同名消歧算法。传统的基于一般属性的同名消歧方法不能对论文作者相似性进行准确度量,而合作者特征是表征作者的强特征。基于此,算法首先根据合作者关系建立合作者关联图,然后利用图的多路径特性计算同名作者在合作者特征上的相似度。考虑到单一合作者特征对论文作者单一且合作者较少的同名作者无法进行良好的消歧,本文设计了一种基于科技词条的领域特征相似度计算方法以进一步提高消歧效果。该方法首先根据科技词条识别论文中的领域信息并计算相关度,然后根据科技词条树图模型建立领域特征模型,通过领域节点扩展方法提升作者领域信息的完整性,进而计算出同名作者在领域特征上的相似度;最后根据合作者特征相似度和领域特征相似度,利用层次聚类的方法把相似度最高的同名作者进行合并。(2)设计了一种基于可信合作者关系的分步消歧算法以解决合作者同名难题。该算法采用两阶段消歧,算法首先给出了可信合作者关系的定义和判定方法,对满足推论的同名作者进行聚类合并从而完成第一阶段消歧工作;第二阶段是在第一阶段消歧的基础上进行的,首先根据合作者关系构建和合作者二分图,然后利用合作者二分图的整体特性,采用Sim Rank算法计算同名作者在合作者特征上的相似度,接着同样结合领域特征相似度计算综合相似度,并通过层次聚类的方法把相似度最高的同名作者进行合并,从而完成第二阶段的同名消歧工作。