基于可信度模型的重复主数据检测算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:yisimple
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对来源于多个业务系统的重复主数据影响主数据质量、主数据同步及主数据挖掘等问题,提出重复主数据检测算法fastCdrDetection。从数据可信度的角度出发,在考虑数据源可信度、数据最后更新时间及数据长度的基础上,建立主数据可信度模型,并实现可信记录生成算法。设计非递归的字符串相似度计算算法 FiledMatch,解决了由中文简写、缩写、错误拼写造成的主数据重复问题,采用 sourceKeys 算法对来源于同一业务系统、具有同样业务主键的重复记录进行预处理,从而提高重复主数据检测效率。通过对某电网基建物
其他文献
宪法作为一国的根本法深刻地影响着国家的政治、经济和文化的发展,确保公民权利的实现和扩展,规范国家权力的良性运行,是法治社会最有力的保障.本文从六个方面对宪法学的核心
流分类算法的性能直接影响防火墙、路由器等设备的处理速度。递归流分类(RFC)算法具有分类速度快的优点,但随着规则数目的增大,存储开销也随之增加。为此,通过对RFC算法进行分析,提出一种改进算法Optimize_RFC,对块的位数进行异或运算,压缩等价类表,减少内存消耗。实验结果表明,Optimize_RFC算法在保持相对较快分类速度的同时,可降低预处理阶段的内存占用。
本文基于大气氮氧化物(NOx=NO_2+NO)和挥发性有机化合物(VOCs)在太阳辐射条件下生成大气臭氧(O_3)这一反应原理,选取西南高原地区山地城市昆明为对象开展大气臭氧生成特征研究,选取两个人类活动-生态系统接触带(黑龙潭公园和西山森林公园)与昆明城区(东风广场)进行大气臭氧污染特征比对,于2017-2018年四季采集O_3、NO_2及VOCs,结合气象条件,分析其浓度时空分布特征并由此判别
通过问卷调查法、文献资料法、数理统计等方法,对我校体育选项课教学现状进行分析与研究。结果显示:学生对选项课学习总体较为满意,但在教学目标、师资队伍、学生状况、场地器
当一个实时系统的运行模式发生改变时,常需要进行带宽转让,并造成截止期丢失。为此,基于最早截止期优先调度的实时任务集,研究因出现新任务插入、现行任务加速而引起的带宽转
本文从基本的人生准备层面,分析论述了我国公民人生准备的结构状态及其群体行为与个体行为的关系,针对大学生活的特殊性,从理论实践上提出了大学生职业生涯规划,亦即人生准备