【摘 要】
:
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成
【基金项目】
:
基金项目:湖南省高等学校科学研究基金资助项目(09C339)
论文部分内容阅读
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相似重复记录的识别。理论分析和实验结果表明,该方法识别效率和检测精度较高。
其他文献
目的对基于早产儿高胆红素血症与围产期危险因素的相关研究进行分析。方法选取2016年4月~2018年3月期间在我院住院的220例早产儿作为研究对象,所选早产儿均行胆红素值测定,并
在结构化点对点(P2P)模型中,节点异构性会引起系统的不稳定。针对该问题,结合混合P2P模型的优点,构造一个基于Chord协议的混合P2P模型,将节点按处理能力分为超节点和普通节点,多个超
目的 调查核医学检查过程中突发病情变化的原因与预防性干预措施。方法 回顾性分析我院2017年9月至2018年9月CT检查室接受检查的11267例患者资料,分析突发病情变化患者的原因
<正>翻开中国革命历史,闽西留下了厚重而壮丽的篇章。从1926年建立党组织到1949年解放,闽西儿女始终坚持党的领导,进行了艰苦卓绝的二十多年的斗争,为中国革命作出了巨大的牺
<正>人大代表是国家权力机关的组成人员。做好代表工作、充分发挥人大代表作用,对于坚持和完善人民代表大会制度,不断开创人大工作的新局面,具有十分重要的意义。今年是区县
在运用现有科技创新推动模型的基础上,引入“短板原理”和“快速反应原理”,对农业科技创新链的研究开发阶段、示范推广阶段和产业化阶段以及贯穿于这些环节的科技创新环境进行
对于二元或多元复合金属氧化物催化剂,如何使金属离子在氧化物结构中均匀分散,一直是催化剂制备上的一个难题。传统的催化剂技术(如固相法,共沉淀法,浸渍法和溶胶凝胶法)并不
<正>近年来,河南省淅川县围绕创建"中国软籽石榴之乡"的目标,引导林农调整农业产业结构,引进扶持龙头企业建设示范基地,全力打造软籽石榴品牌。为提升软籽石榴产业发展水平,2
摘要:在经济的快速发展中,金融市场起着很重要的作用,从而成为经济管理者与学者的研究重点.金融市场的重大风险会给经济带来重大的后续影响.因此,金融市场的风险管理自然就成
资本主义高度发达的商品经济和竞争规律,为社会化大生产和广泛应用科学技术开辟了道路,促使了科学劳动组织和管理制度的不断发展和完善,加之剥削形式和调节机制的作用,这些都