数据仓库ETL中相似重复记录的检测方法及应用

来源 :计算机应用 | 被引量 : 51次 | 上传用户:adamas522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法PCM(位置编码方法)。该算法不仅可以应用到西文字符集中,而且也成功的应用到了中文字符集中,实例表明该算法具有很好的效果。
其他文献
目的探索协同护理对结直肠癌患者结肠造口后护理效果及自我护理能力的影响性。方法选取2015年3月5日~2017年1月5日结直肠癌患者80例作为研究对象,将其随机分为两组,各40例,观
为了解决轨道交通和综合管廊分开规划建设所存在的资金花费大、占用资源多、实施难度大的问题,提出一种基于地理信息系统(GIS)与三维设计(BIM)的轨道交通和综合管廊同期规划
采用欧拉-欧拉多流体方法,对磁场复合电解加工的气液两相流进行了数值模拟,研究磁场作用下电解质流场流速、气泡体积分数分布等流体力学信息。仿真表明,静液状态时,在磁场的