基于属性划分信息增益的函数依赖挖掘算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:maciqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的进一步发展,数据成为了一种新兴的生产资料。当前,各行各业的信息系统中包含了大量的数据,尤以关系型数据为主,这些数据往往存在错误,难以有效利用。因此,人们希望能够找到一些行之有效的策略对数据进行修复,而在关系型数据中,函数依赖扮演了数据修复的重要角色。函数依赖(Functional Dependency)是关系模型中的一个重要概念,可被用于模式泛化,数据清洗,数据修复,数据整合等。关系数据下的函数依赖发现方法已经被研究数十年,并提出了各种函数依赖挖掘方法,但是仍旧残存了一些问题,例如挖掘属性数目庞大的数据库实例中的函数依赖时,算法速度仍然不理想。近年来传统的发现算法如深度优先遍历的DFD,其时间复杂度会呈现指数级上升。针对该问题,本文提出了属性划分信息增益这一概念,将原始DFD函数依赖发现算法和HYFD算法中的集中抽样方法相结合。首选使用属性划分间的信息增益列表改进原始DUCC算法中下一节点选择的随机游走备选策略,以此寻找唯一属性组合MUC,再通过集中抽样处理方法对数据集进行抽样计算得到非函数依赖,最后对单属性主键节点、非单属性主键、非函数依赖节点路线进行剪枝,并参考信息增益列表对原始DFD算法的起始路线进行选择,使得改进后的算法理论上优于原始算法。最后本文利用Metanome下的公开数据集对算法进行了验证,并开发了一种能够自动检测和修复数据的excel插件。实验结果表明,基于属性划分信息增益的函数依赖挖掘算法相比原始DFD速度更快。当数据集的记录数和属性数较大时,改进后的算法与原始算法相比具有更好的鲁棒性。同时,由于采取了集中抽样处理方法,当改进的算法在计算数据集较大的情况下,其内存开销相比原始DFD算法更小。
其他文献
低压铸造是生产铝合金铸件常用的一种技术,和传统的重力铸造技术相比,具有金属液利用率高、铸件组织致密等特点。液面加压系统是低压铸造的核心,液面压力的响应速度和控制精
随着计算机技术的发展,数据采集渠道与特征提取器的种类日趋多样,使得同一对象可以从不同层面进行描述,从而产生多个视图形成多视图数据。然而,由于遮挡、仪器损坏等原因导致采集到的每个视图数据均不完整,形成不完全(有样本缺失的)多视图数据。因此,如何处理不完全多视图数据并从中挖掘到该类数据的共享信息,以及如何利用这类多视图数据的一致性原则以及互补原则完成多视图聚类任务,已经引起机器学习领域研究人员的广泛关
随着半导体集成电路的发展和“摩尔定律”对芯片关键尺寸的预测和推进,光刻人不得不提出并使用更加精确的模型和引入更好的优化算法,以便探索光学分辨率提高的潜力。然而,在实际生产过程中的各种因素制约着芯片的可制造性,降低了集成电路的成品率和产能效率。解决上述问题的关键便是建立更加精确地模型和进一步提高算法的优化效率。通过查阅参考了大量的国内外文献,本文在部分相干光矢量模型中加入了光学投影在光刻胶中的成像过
青苗会是近代华北农村普遍存在的一种村落组织形式。本文运用20世纪40年代前半期满铁调查部惯行班在华北地区的调查资料,具体考察了其中记录的六个村庄的情况,通过上述文献材
新疆民众反帝联合会是盛世才在新疆创办的一个群众性政治组织,成立于1934年8月,解散于1943年8月。主要开展各种经济社会文化活动,以组织教育群众,宣传新政府政策,建设新新疆。1935年6月,俞秀松受联共中央的委派到新疆工作,改组新疆民众反帝联合会并担任秘书长。经过此次改组,新疆民众反帝联合会的章程更加完善、宗旨任务更加突出、组织机构更加健全,同时制定了对会员的惩罚规定,以整顿组织纪律。俞秀松在新
与外界通讯以及遥感探测等天线辐射特性往往会受到周围环境的影响,主要影响因素包括天线载体平台、天线舱、天线罩、高超声速飞行情况下形成的等离子鞘套等。这些因素可能会导致天线辐射场在空间分布发生改变、方向图的发生畸变、阻抗失配、回波损耗驻波比等性能参数改变等等,进一步会造成天线系统故障甚至更严重的事故发生,因此研究载体平台与等离子体鞘套对天线影响问题具有理论意义和实际价值。本文依据现有理论基础,在微波暗
由于现代科学技术不断完善,信息技术的发展需求电子器件尺寸小型化,以满足器件高度集成化的要求,因此对于制造器件的材料产生更多的限制。二维材料由于在电子和光学方面的独
传统的穿墙雷达成像方法在对墙体后隐藏目标进行探测时通常将探测环境的墙体位置作为先验条件并设定为固定值,实际上这种处理方式在工程应用中并不适用。在实际环境中墙体的
随着大数据时代的来临,数据规模日益变大,庞大的数据量不再适用于传统数据的展现形式。可视化技术是帮助人们理解和分析复杂网络最重要的手段,但信息的高速发展,复杂网络呈现
共形阵列是指天线依附在载体表面,与载体外形保持一致的天线阵,不仅具有良好的隐身性能、气动性能以及更广的估角性能,而且能够用于感知目标的角度域、极化域等多维域信息。因此,共形阵列在雷达、声呐以及无线通信等领域有着广阔的应用前景。在实际应用中,由于加工工艺水平有限,环境温湿度变化以及器件老化等多种因素使得阵列存在误差,导致基于理想阵列导向矢量的高分辨阵列参数估计方法性能恶化。对于平面阵列,我们可以采用