【摘 要】
:
为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确
【基金项目】
:
福建省自然科学基金(2015J01653), 福建江夏学院青年科研人才培育基金(JXZ2014011)
论文部分内容阅读
为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度.在此基础上,结合属性权值计算两条记录的长度比例,排除不可能构成相似重复的记录,减少了比较次数,提高了检测效率.实验结果表明改进算法在查全率、查准率及时间效率等方面均有所提高.
其他文献
经济高速增长带来的资源、环境和生态问题,进一步影响到经济的可持续发展,如何使经济发展具有可持续性。“零增长”的思路很难被接受。尤其像中国这样的发展中国家。更离不开经
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
采用田间试验和化验分析的方法,研究了不同氮、磷、钾施用水平下,茎瘤芥各器官产量和硝酸盐含量变化特征。结果表明,瘸茎产量与氮、磷、钾施用量均呈极显著二欢回归关系;瘤茎硝酸
<正>结核病作为一种慢性呼吸道传染病,严重危害人类的健康,2006年卫生部公布了《人间感染的病原微生物目录》,将结核病定义为二类病原微生物[1,2],近年结核病的发病率越来越
目的 探讨分层管理模式对提高护理质量的影响分析,为护理研究提供科学依据。方法 选取2016年5月—2017年6月在该院治疗的患者164例及护理部护士42名,随机分为对照组和观察组
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的:本临床研究主要是为了胸部数字化X线摄影与低剂量螺旋CT在肺癌筛选中的应用价值体会。方法:本试验的研究方法是收集2017年10月01日-2019年9月30日在我院呼吸科就诊的50
"转类"是语法学和修辞学长期以来共同关注的议题,文章系统考察了诗歌语言中的名转动现象及其与语法之间的互动关系。研究表明,诗歌语言中存在大量名转动用法,涵盖了结果转指动
摘要:随着我国的矿业技术发展,无论是在勘测技术上还是在其他数据分析方面都得到了不同程度提高,目前已经形成了多学科相互结合共同研究的新局面。本文主要针对了岩矿分析和测试技术在当前情况的应用现状进行了简单的探讨,并对它们以后的发展进行了理论上的分析。 关键词:技术发展;岩矿分析;测试;应用;发展 一、岩矿分析 (一)岩矿分析的相关步骤 目前在岩矿分析由以下几个步骤组成,首先是对试样的加工,然后
目的:探究低剂量扫描技术在冠状动脉CT血管造影中的应用。方法:以100例冠状动脉CT血管造影患者为对象,研究时间为2016年10月—2019年9月,分为参照组与研究组,每组各50例,参照