数据清洗技术的研究及其应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户:try111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了从业务系统积累的越来越多的事务数据中提取有用的信息,解决日趋加剧的数据丰富而信息贫乏的矛盾,数据仓库应运而生。而在数据仓库的构建过程中,数据质量是影响数据仓库成功与否进而影响到决策支持及趋势分析的重要因素。数据仓库频繁地从各式各样的源数据中装载和刷新,这些数据中不可避免地存在很多异常,这就要求数据进入数据仓库之前必须进行清洗。本文首先论述了数据质量的相关理论及其定义,进而分析了进入数据仓库之前进行数据清洗的必要性以及主要的数据清洗过程,同时阐述了当前数据清洗的各种理论框架及其应用的发展现状。然后,针对已有系统的不足,提出了一个数据清洗的框架模型及其部分实现。本文的重点是对可扩展可定制数据清洗框架的研究与设计。此框架集数据清洗/迁移为一体,使用基于XML 的过程描述语言对每个清洗过程进行定义,并利用元数据管理中心对清洗所需要的所有元数据进行统一存取。同时使用JAVA 与XML 进行开发,大大提高了其跨平台运行的能力,并可作为组件方便地集成到其他应用系统中去以实现数据清洗功能。文章最后也提出了系统存在的不足之处及今后需要研究改进的地方。
其他文献
海洋溢油污染是各种海洋污染中影响范围最广、危害时间最长、对生态环境破坏最大的一种。针对目前的溢油污染状况,国家海洋局已有两架海监飞机用于海上溢油污染监测,并且即将配备遥感监测设备-红外传感器和紫外传感器,但是在溢油信息智能处理的软件方面仍存在空缺。本论文对红外或紫外遥感扫描图像进行处理,根据处理后的信息,获取海上溢油情况。 图像的边缘检测是遥感图像处理的重要手段。溢油图像具有两个主要特点:.
随着计算机技术的发展,计算机已经作为处理数据的一种重要工具已经广泛应用于各行各业,数据的价值变得前所未有的重要,而数据信息的安全性也成为人们所关注的问题。为了确保
知识产权保护一直是备受关注而又不好解决的一大难题,尤其是数字媒体的版权保护问题。数字化作品具有易存储加工、易传输复制等优点,这使得知识信息的传播和交流更方便,但与
在基于TCP/IP协议的网络中,目前有多种办法来决定终端到其目的IP的下一跳。常用的方法是运行动态路由协议或静态配置缺省路由。大多数终端的操作系统平台都不支持动态路由协
蚁群算法作为一种新的启发式搜索算法,大量实验结果表明,它在解许多NP-hard问题时都表现出较好的求解能力。因而它吸引了众多学者不断对其扩展改进,也在经历着一个不断发展完
信息技术的高速发展和嵌入式系统的广泛应用给人们的生活带来了革命性的变化,嵌入式系统接入Internet成为一个未来的趋势。本论文的主要目的是对嵌入式系统接入Internet的技
无线网络可以利用物理层的信道噪声来增强系统的安全性能。通常物理层安全协议针对特定无线信道的噪声特性进行设计,并假设窃听者的信道特性已知,但在实际中该假设是不可行的
网格技术作为网络发展的第三次浪潮,其广阔前景使得在这一领域的研究具有重要的积极意义。网格的重要宗旨就是用最快的速度找到合适的资源,并加以应用。网格资源在地理上具有分
ASON(Automatically Switched Optical Network自动交换光网络)赋予了传统光传送网前所未有的灵活性和可扩展性,代表了下一代光网络的发展方向。动态路由和波长分配算法是实
近年来,开放网络环境中的诸多应用如P2P共享、电子商务、社交服务等已深刻地改变了人们的社会活动和交流方式,然而,在这种开放的、分布式的虚拟社会网络中存在着大量的欺诈行