基于R-树索引的高维相似重复记录检测改进算法

来源 :微电子学与计算机 | 被引量 : 0次 | 上传用户:dqqwa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效率,同时改进度量记录相似性的距离算法,避免高维数据稀疏性的影响.最后,通过真实数据在不同维度上分别与SNM算法进行对比,验证了算法的有效性.
其他文献
针对传统故障树分析得到的诊断序列存在局部最优的问题,研究提出基于TOPSIS的综合分析方法,以概率重要度、结构重要度、关键重要度为分析指标,构建集定量与定性为一体的综合分析
本文提出了一种使用门控环形振荡器及时间斜移整形技术的2-0级联结构的ΔΣ型TDC.该TDC使用了一个环形DTC和基于时间寄存器的时域加法器,DTC通过与GRO-TDC共享量化器从而无需
由于我国上市企业存在严重无效投资行为,本文主要从过度投资的驱动因素与治理机制两个维度进行理论分析,希望对上市公司过度投资的治理给予一定的帮助。
近年来,伴随着我国高等教育的快速发展,大学毕业生数量不断增加,就业形势严峻。在此背景下,如何拓宽就业渠道,提高大学生有效就业率成为高校、政府、社会各界关注的热点之一
为了提高双视角条件下的粒子滤波目标跟踪算法的性能,提出了对极约束下的粒子滤波目标协同跟踪算法.利用对极几何约束,一方面对协同跟踪过程中的目标检测区域进行限制,减少检索空间;另一方面对粒子滤波目标跟踪算法的状态转移模型进行改进,减少目标在监控重叠区域时,每个摄像头跟踪所需的粒子总数.最后,从帧率、中心误差及覆盖率上,对算法的性能进行分析比较.实验结果表明,算法在时间性能上能满足实时性要求,准确度上较
在现代信息技术飞速发展时代背景下,互联网金融进入人们的生活,在为人们提供便捷服务的同时也存在一定的风险。对此,我们作为大学生志愿者开展金融知识进社区志愿活动,让每个人都