基于分块和滑窗技术的相似重复记录检测算法研究

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户:Colo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。
其他文献
在作文评测中,句间逻辑合理性是评价语言运用能力的一项重要指标。从句间连贯性角度出发,采用句子排序的相关算法研究句间词汇中的潜在关联,并对作文段落逻辑合理性进行定量分析,达到对作文段落逻辑合理性等级评测的目的。以计算条件熵为基础,使用马尔科夫随机游走模型进行句子排序;计算过程中融入word2vec和同义词词林进行语义扩展;经ROUGE-L评分,该模型取得了较好的效果。提出带优化的句间逻辑合理性评测模
随着高等职业教育的不断深入,教学对实践提出了较高的要求,如何切实培养学生的技能成为一个新课题。本文研究了机电一体化教学的特点,并分析了实践教学的发展现状及存在的问
一个复杂的ROP shellcode从语义层面经常会用到循环和递归等控制流形式。条件跳转控制流gadget是循环和递归等控制结构的基础。然而ARMv7指令集中的间接条件跳转指令在ARMv8指令集中已经不再存在。ARMv8指令集中的条件跳转指令的目标地址的偏移已经被硬编码,不能被使用,所以ARMv8架构下只能通过无条件跳转gadget的重复使用实现循环和递归。这不仅执行效率低,而且浪费了大量的内存空
针对水面漂浮物识别中图像数据量少、噪声影响多,导致识别精度低的问题,采用一种基于深度学习的小样本水面漂浮物识别方法进行水面常见污染物塑料袋与塑料瓶的识别。采用现有大型数据集中的普通塑料袋与塑料瓶图像构建并训练卷积神经网络模型AlexNet;采用梯度下降法对模型进行微调,并用融合的光照矫正法处理待识别图像;将网络识别结果与传统的HOG特征提取方法进行比较。实验结果表明,该方法相较于传统的提取特征方法
很多学生在英语学习方面存在着问题,他们的四会能力现状不容乐观,尤其是书面表达能力。对此,广大中学英语教师要转变教学指导思想和教学观念,加强写作训练。本文就如何培养高
热喷涂技术是一项金属表面强化和防护的新技术,它是利用氧乙炔火焰、电弧等离子弧、爆炸波等热源将欲喷涂的各种金属或非金属材料加热至熔化或半熔化状态,喷射到预先准备好的零