【摘 要】
:
数据仓库是数据挖掘和决策分析的基础,纠正数据错误是避免错误决策、降低决策风险的重要一环.因此,数据仓库需要高质量的数据.完成这项艰巨的任务就是ETL.该文主要研究基于元
论文部分内容阅读
数据仓库是数据挖掘和决策分析的基础,纠正数据错误是避免错误决策、降低决策风险的重要一环.因此,数据仓库需要高质量的数据.完成这项艰巨的任务就是ETL.该文主要研究基于元数据的数据抽取、转换和装载以及数据清洗的算法,以提高数据的质量,并构建了ETL模块和整个数据仓库的元数据结构,增强清洗过程中的交互操作.将数据源中与数据仓库的主题有关的数据进行抽取、清洗、过滤、集成处理后,加载到数据仓库,即把数据从各种各样的存储方式中抽取出来,进行必要的转化、清洗和集成,再存放到数据仓库的相应主题下.该文在对频繁的和影响决策的数据错误的分析基础上,设计并实现了一个ETL系统.对数据源中的重复元组、异常数据、日期时间型、地址型和数据缺失值等错误类型进行处理.系统中涉及到分词法、KNN算法和Bayesian决策等方法,实现了优化的KNN算法,将最小风险的概念引入到Bayesian决策方法中,可以检测字符型、数值型、日期型和地址型的数据错误.使用UCI机器学习测试数据集,对该系统的测试结果表明:该系统的抽取、转换和装载功能速度快,效率高;清洗算法在用户阈值的干预下,能准确快速地执行.
其他文献
公安领域的信息系统建设经过了十余年的发展已经初具规模。随着信息化建设的不断深入,对信息系统发挥的作用提出了更高的要求,于是决策支持提上了议事日程,而传统的事务型处理系
本文主要介绍了在Windows环境下,利用Microsoft最新集成开发工具Visual C++.NET研制开发了应用于三维编织工艺设计的CAD系统。 首先在分析三维编织复合材料内部细观组织特性
随着多媒体技术、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题,基于内容的图像检索是解决这一问题
计算机信息设备在工作时,会伴随产生电流传导以及辐射电磁波等,通过捕捉泄漏的能量,可以获取其中包含的内在信息。因此信息设备的能量泄漏除了对环境构成污染、产生电磁干扰外,还
计费帐务系统贮存着用户使用电信业务的各种费用和帐务信息,记录着电信企业主要收入信息,关系到电信企业的经营效果,因此计费帐务系统对电信企业而言其地位十分重要.今后的竞
随着多媒体技术和通信技术的蓬勃发展,音频视频数据在网络传输和交互日益广泛,特别是MPEG系列标准提出来以后,基于MPEG的应用更是一日千里,深入人心。本文将研究基于MPEG-4的4路
传输控制协议(TCP,Transport Control Protocol)是最重要的传输层协议之一,它提供端到端可靠的字节传输服务,被广泛的应用于互联网的各类服务中。然而,近年来,随着网络带宽和用户
该人结合自己参与《学校管理系统网络平台》软件开发实际工作,对B/S体系结构开发应用系统的有关技术进行了分析.在第二章以传统的C/S结构、三层体系结构、B/S结构特点进行了
模式串匹配技术广泛应用于网络和内容安全领域,是网络内容安全分析和深度检测的关键技术之一。在近几十年的网络飞速发展中,网络安全分析始终是影响众多领域的研究热点。随着网
随着计算机网络的迅速普及,电子商务已经成为国际上的热潮。如何结合电子商务教学,开发出适合教学使用的电子商务教学模拟系统,是一个新的任务。本论文介绍了电子商务教学模拟系