数据清理系统EDCS的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:luowanda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于建立在数据仓库之上的决策支持系统,数据的正确性对避免错误的决策是至关重要的,错误的数据将会导致"垃圾进,垃圾出".因此在构建数据仓库时,必须对各种异质数据源进行数据清理,以保证数据质量.数据清理可以划分为若干原子操作,通过原子操作的有机组合执行各种数据清理任务.在此基础上,提出了数据清理系统EDCS的总体结构.异质数据源中存在多条记录指向同一实体的问题,数据清理的一个主要工作就是识别这些近似记录并将其合并.在EDCS中,通过字段值语法上比较结果的综合来决定两条记录语义上是否相似.我们对文本字符串匹配方法进行研究,提出了R<,->EDist方法,将递归匹配思想和编辑距离方法结合起来,既能识别拼写错误,又能够识别子串颠倒和缩写.在字段比较结果进行综合时,提出有效权重的概念,以此消除字段缺失对判断记录相似性的影响,提高了重复记录识别的精确度.数据仓库需要集成大量的数据,快速而准确地识别其中的近似重复记录是数据清理系统实用化面临的一个非常关键的问题.在EDCS中,为了缩小重复记录搜索空间,减少记录的比较次数,我们采用了多趟排序近邻方法和优先队列策略.针对字段的不同特点,使用不同的排序算法,进一步提高了系统的效率.除此之外,我们还提出了增量式重复记录识别的算法,在不损失精度的情况下,有效地节省了时间开销和系统资源.
其他文献
主动网络是一个全新的网络体系结构,其网络可编程特性给网络安全带来了严重的挑战.与传统被动网络相比,主动网络的安全保护更显得至关重要.分析了主动网络中存在的安全问题以
该文介绍了基于PCI总线的快速以太网适配器的设计和实现过程,主要涉及硬件电路设计和驱动程序编制两个方面.针对TCP/IP协议、网卡数据交流换流程、缓冲管理方案及PCI总线接口
数字校园是在传统校园的基础上,利用先进的信息化手段和工具,将现实校园中的各项资源数字化,形成的一个数字空间。其中的虚拟校园漫游系统,则是在计算机环境中,利用虚拟现实技术再
随着社交媒体的快速发展,大量社会热点在以微博、论坛为代表的社交媒体平台迅速生成、发酵、和扩散。这些由普通用户产生的内容(UGC,User Generated Content),由于发布门栏低,缺
蓝牙网络的基本单元是匹克网(Piconet),多个匹克网可组成一个大的蓝牙网络——散射网(Scatternet),不过蓝牙的最初目的是个人区域网,即简单易用的网络.所以蓝牙规范并没有规
随着物联网的不断发展以及无线网络的普及,越来越多的资源受限物端设备接入网络。这些设备所产生的数据已达到海量级别,传统的将物端数据上传至云服务中心集中处理再反馈控制的
嵌入式实时操作系统由于自身的实时性,可预测性等特点,对内存管理的要求与通用操作系统相差很大.通用操作系统中内存管理的目标是提高系统的整体性能,而实时操作系统内存管理
随着Internet的发展,人们可以通过网络获得大量的信息资源,然而网上的信息浩如烟海,而且增长和更新的速度越来越快,从海量信息中找到所需的内容是一项极富挑战性的工作。而现有的
XML和J2EE作为具有强大生命力的标准,短短几年内得到了迅速的应用。将XML和J2EE两者结合起来,可以极大地发挥各自的长处,互补地推动对方的发展。 本文详细地介绍了XML技术和J
超级基站是中科院计算所提出的基于水平共享式模型的新型移动接入网架构,由大规模多模基带资源池和协议资源池、分布式远端多模射频单元、集中式全局资源智能管控等硬件部分组