科技专家库中同名消歧方法研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:qu123qu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展使互联网成为一个巨大的信息源。利用分散在各种科技信息系统中的科技专家相关信息可以构建基于Web的科技专家库,提供检索、遴选和其他主题的科技服务。但是来源于不同科技信息系统中专家存在同名现象,数据质量也存在差异,名字的歧义不仅降低了专家检索的准确性,而且会对后续的分析造成严重的影响,因此采集到的科技专家需要进行同名消歧后才能进入科技专家库。同名消歧是将有歧义且混淆在一起的真实个体区分开。按照课题组的需求,本文以科技专家库中的科研论文作者为研究对象,根据科研论文中存在着复杂的合作者关系,结合研究人员的研究领域特征,提出了基于合作者关系的同名消歧算法和基于可信合作者关系的分步消歧算法,论文的主要工作如下:(1)提出了一种基于合作者关系的同名消歧算法。传统的基于一般属性的同名消歧方法不能对论文作者相似性进行准确度量,而合作者特征是表征作者的强特征。基于此,算法首先根据合作者关系建立合作者关联图,然后利用图的多路径特性计算同名作者在合作者特征上的相似度。考虑到单一合作者特征对论文作者单一且合作者较少的同名作者无法进行良好的消歧,本文设计了一种基于科技词条的领域特征相似度计算方法以进一步提高消歧效果。该方法首先根据科技词条识别论文中的领域信息并计算相关度,然后根据科技词条树图模型建立领域特征模型,通过领域节点扩展方法提升作者领域信息的完整性,进而计算出同名作者在领域特征上的相似度;最后根据合作者特征相似度和领域特征相似度,利用层次聚类的方法把相似度最高的同名作者进行合并。(2)设计了一种基于可信合作者关系的分步消歧算法以解决合作者同名难题。该算法采用两阶段消歧,算法首先给出了可信合作者关系的定义和判定方法,对满足推论的同名作者进行聚类合并从而完成第一阶段消歧工作;第二阶段是在第一阶段消歧的基础上进行的,首先根据合作者关系构建和合作者二分图,然后利用合作者二分图的整体特性,采用Sim Rank算法计算同名作者在合作者特征上的相似度,接着同样结合领域特征相似度计算综合相似度,并通过层次聚类的方法把相似度最高的同名作者进行合并,从而完成第二阶段的同名消歧工作。
其他文献
稻瘟病菌能够侵染以水稻为主的众多重要农作物,同时也是研究丝状真菌的生长、发育和致病性的重要模式生物。作为机体重要分子开关的Rab GTP酶是Ras超家族的其中一员。在酿酒
杉木在我国林业中是一种支柱性的树种,在国民经济中,也占据了重要的位置。不过,由于多年来持续种植,同时在不合理的林业经营措施作用下,杉木林的林地均出现了不同程度的地理
政治认同是社会稳定、国家繁荣、人民幸福的基本前提,是思想政治教育的价值维度和功能指向。中国是世界多民族人口大国,为了保持社会和谐稳定,人民生活水平逐步提高,通过思想
传统的投资组合模型假设投资者只面临投资风险,然而投资者还会面临背景风险,暴露于背景风险的资产称为背景资产。目前研究将背景风险分为两类——加性背景风险和乘性背景风险
本文通过在己内酰胺的开环水解过程中分别加入一定量的SEED、UV-770、UV-944、四甲基哌啶胺、Chimassorb119、UV-783、UV-791,合成改性PA6树脂。采用紫外光加速老化实验、差
近年来,复数值神经网络作为神经网络研究领域的一个重要分支,越来越受到广大科研工作者的青睐,人们把神经网络的网络结构、算法理论从实数域推广到复数域,复数值信号逐渐被人
有机砜类化合物普遍存在于自然界和生态系统中,其中芳基砜因其突出的生物活性存在于许多重要的药物和生物分子中,例如环氧合酶-2(COX-2)抑制剂和前列腺素D2(DP)拮抗剂MK-0524,同
21世纪是信息世纪,是科学技术水平日新月异的世纪,近年来涌现出的诸多新技术,例如人工智能、云技术等的迅猛发展,使得“科技是第一生产力”、“知识改变命运”等耳熟能详却与
陆地生态系统的土壤呼吸是全球碳循环的关键环节,森林土壤呼吸则是陆地生态系统土壤呼吸的重要组成部分,其变化会对陆地生态系统以及全球的碳平衡产生巨大的影响。本研究所选
重金属离子是一种高毒性的污染物,对人类和海洋生物危害极大。长期接触Cr(Ⅵ)、Cu(Ⅱ)、Pb(Ⅱ)等重金属离子会引发一系列的疾病,因此如何去除水中的重金属离子成为近几年研究