论文部分内容阅读
为保证数据迁移后新系统的数据质量,把数据清理应用于数据迁移之中,提出一种集成数据清理的交互式数据迁移系统,并分析其工作原理.为了提高该系统中相似重复记录的检测效率,在相似重复记录检测中采用长度过滤等方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了整个数据迁移系统的数据迁移速度.此外,构造了合适的实验环境,作了大量的检测实验,实验结果验证了长度过滤方法的科学性.