【摘 要】
:
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的
【机 构】
:
中国科学院新疆理化技术研究所,中国科学院大学,新疆民族语音语言信息处理实验室
【基金项目】
:
新疆维吾尔自治区重点实验室项目(2016D03019),新疆维吾尔自治区高技术计划项目(201512103),中国科学院科技服务网络计划(STS计划)项目(KFJ-EIW-STS-129)
论文部分内容阅读
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效率,同时改进度量记录相似性的距离算法,避免高维数据稀疏性的影响.最后,通过真实数据在不同维度上分别与SNM算法进行对比,验证了算法的有效性.
其他文献
针对传统故障树分析得到的诊断序列存在局部最优的问题,研究提出基于TOPSIS的综合分析方法,以概率重要度、结构重要度、关键重要度为分析指标,构建集定量与定性为一体的综合分析
本文提出了一种使用门控环形振荡器及时间斜移整形技术的2-0级联结构的ΔΣ型TDC.该TDC使用了一个环形DTC和基于时间寄存器的时域加法器,DTC通过与GRO-TDC共享量化器从而无需
由于我国上市企业存在严重无效投资行为,本文主要从过度投资的驱动因素与治理机制两个维度进行理论分析,希望对上市公司过度投资的治理给予一定的帮助。
近年来,伴随着我国高等教育的快速发展,大学毕业生数量不断增加,就业形势严峻。在此背景下,如何拓宽就业渠道,提高大学生有效就业率成为高校、政府、社会各界关注的热点之一
为了提高双视角条件下的粒子滤波目标跟踪算法的性能,提出了对极约束下的粒子滤波目标协同跟踪算法.利用对极几何约束,一方面对协同跟踪过程中的目标检测区域进行限制,减少检索空间;另一方面对粒子滤波目标跟踪算法的状态转移模型进行改进,减少目标在监控重叠区域时,每个摄像头跟踪所需的粒子总数.最后,从帧率、中心误差及覆盖率上,对算法的性能进行分析比较.实验结果表明,算法在时间性能上能满足实时性要求,准确度上较
在现代信息技术飞速发展时代背景下,互联网金融进入人们的生活,在为人们提供便捷服务的同时也存在一定的风险。对此,我们作为大学生志愿者开展金融知识进社区志愿活动,让每个人都