基于CURE算法的相似重复记录检测

来源 :计算机工程 | 被引量 : 0次 | 上传用户:s83436776
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对CURE算法进行改进,将其应用到相似重复记录的检测。提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样的准确性。改进代表点选择方法,提出基于距离影响因子的代表点选取策略,既可以根据数据集的密度进行代表点的选取,又能适当选取有一定意义的边缘点作为代表点,提高代表点选取的合理性。理论分析和实验表明,该方法在保证执行效率的情况下有很高的准确性。
其他文献
提出一种基于Contourlet变换域的图像滤噪算法,对带噪图像进行多尺度、多方向的Contourlet分解,依据Contourlet变换域系数的估计损失期望最小化准则,在Contourlet域中得到各子带内邻域系数的滤噪最优阈值与最优窗口尺寸,利用Contourlet变换域系数的萎缩实现滤噪。仿真结果表明,与现有的Contourlet变换域图像滤噪算法相比,该算法能有效保护图像的细节和纹理,具有
随着火灾引起建筑结构损害问题的增多,建筑的结构安全性以及后期使用性均受到影响,论文对火灾后的建筑物进行现场勘探、检测、结构局部受损情况等进行阐述,就其安全性与抗震
在新课改的大力推行下,素质教育逐渐成为学校教育教学的重点。体育是高中阶段必学课程,旨在提高学生身体素质,在核心素养的前提下使学生获得全面发展。在核心素养的要求下,体
党的十七大指出,进一步推动社会主义新农村建设,以科学发展观促进社会进步;基于此,笔者提出应以科学发展观的视角进行环洞庭湖区新农村建设,其重点应放在村庄规划、住宅设计、基础
自然资源资产负债表披露对于企业运营发展是比较重要的。本文结合现阶段企业自然资源资产负债表信息披露存在的问题,提出企业自然资源资产负债表信息披露需要从加强信息收集
在嵌入式并行计算系统中,任务调度是决定系统性能的关键。多任务调度中,启发式调度法是一种设计简单且性能良好的调度方法。目前的调度算法大多是基于任务复制的,没有充分考虑前