数据匹配算法应用对比研究——以期刊数据融合中作者和机构匹配为例

来源 :数字图书馆论坛 | 被引量 : 0次 | 上传用户:zhuchonge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了评价数据匹配算法中常用的四种字段匹配算法——Smith-Waterman算法、编辑距离(Edit Distance)、Q-gram算法和Jaro-Winkler算法的效果和表现,本文选取由水稻领域18个重点期刊集成得到的作者和机构数据设计实验,使用Febrl清洗工具包对相似重复记录进行匹配。结果表明,四种算法适用条件不同,Smith-Waterman算法运行时间特别长,但综合表现以及精度和召回率都不错;编辑距离(Edit Distance)性价比比较高;Q-gram算法运算快但召回率低;Jaro
其他文献
对关于数字图书馆可持续发展研究相关文献进行了梳理。基于数字图书馆可持续发展理论框架,分别从经济、社会、生态三个维度总结了数字图书馆可持续发展的概念与内涵,指出可持续
科学、技术和医学(STM)数字出版具有内容数字化、组织语义化和流程网络化的特点。STM数字出版物可划分为传统出版物的数字化出版,新型出版模式下的数字化资源,分析型、工具型为主
学术文本自动摘要是指对于给定学术文献,自动地抽取其核心内容,以提高用户撰写和阅读文献的效率。目前基于文本词频对句子重要性排序的自动摘要技术,无法从语义层面揭示学术文本
由自由词描述的用户检索词,可能会导致返回过多或过少的检索结果。有研究显示使用叙词表中的语词作为检索词,可提高网络检索系统的查准率和查全率。基于此,本文提出一种基于最大
在我国改革开放以来,建筑物的高度一直不断的增高,伴随而来的消防问题也就变得非常严重。但是大部分建筑物在建设过程中并没有对消防措施采取有效的设计施工,最终造成了严重的火