【摘 要】
:
目前已有的重复记录检测方法大多数基于"排序&合并"的思想,其检测精度不高、执行检测的代价过大。针对这些问题,提出了一种分组模糊聚类的特征优选方法。该方法首先进行分组记录
【基金项目】
:
南通大学自然科学基金项目(03040547)
论文部分内容阅读
目前已有的重复记录检测方法大多数基于"排序&合并"的思想,其检测精度不高、执行检测的代价过大。针对这些问题,提出了一种分组模糊聚类的特征优选方法。该方法首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测。理论分析和实验结果表明,该方法有较高的识别精度和检测效率,能较好地解决大数据集中相似重复记录的识别问题。
其他文献
高校后勤社会化改革关系我国高等教育改革与发展的全局,具有重要的意义.本文以慕尼黑大学生后勤服务管理中心为例,介绍了德国大学生后勤服务社会化的有关情况.
目的:为提高基层医院对病毒性心肌炎(VMC)的诊断水平,探讨病毒性心肌炎相关辅助检查指标的临床价值。方法:对60例急性病毒性心肌炎患者的辅助检查结果进行逐一分析。结果:心电图检
摘要 目的:探讨护患沟通流程在临床上应用的优越性。方法:将住院患者392例随机分为两组,研究组和对照组各196例.研究组采用护患沟通流程进行沟通,时照组采用一般的沟通方法进行沟通。通过对两组的住院时间、住院费用、沟通时间进行比较,并采用护患沟通效果评价表,健康教育效果评价表,住院患者满意度调查表、社会满意度调查表进行评估。结果:研究组护患纠纷、沟通耗时、住院时间和住院费用明显低于对照组,患者的满
大豆蚜虫是大豆的主要害虫之一,以成虫和若虫在豆株的顶叶,嫩叶和嫩茎上刺吸汁液。严重时布满茎叶,也可侵害嫩荚,造成植株矮小,结果枝和结荚数减少,千粒重降低,苗期发生严重时可使整
投入不足一直是困扰我国高等教育产业发展的瓶颈.因此,研究高等教育产业融资问题有重大的理论和现实意义.本文从国民收入分配分析入手,揭示我国高等教育产业融资面临的四大挑
目的:了解影响精神分裂症亚型转归结局的有关因素。方法:按照CCMD-2-R,并使用精神现况检查第九版(PSE-9)及BPRS。对1985—1986年出院。首次发病的精神分裂症100例进行随访。结果;随
介绍了一种海量数据生命周期管理的解决方案。该方案采用三级存储架构,以数据库与文件相结合的方式存储数据。该方案自主管理数据备份、数据恢复、数据迁移、介质检查,介质修复
处理困难气管插管常用方法面罩通气:是最基本、最重要的通气方法。
分析了随机变量对NS2错误模型的影响,解释了当随机变量的分布的参数发生变化时,错误模型的丢失率偏离预期值这一现象的原因,并在此基础上通过对NS2错误模型的修正,使得rate_与分