论文部分内容阅读
为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进行比较记录的共有项,有效提高相异字符的计算权重.然后利用FRMA算法计算记录间的相似度,最终消除中文相似记录.在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值.