论文部分内容阅读
随着信息管理系统的应用,从异构的多源数据中挖掘隐藏信息的难度越来越大。数据挖掘的前提是将数据抽取到指定的数据仓库,ETL(Extract-Transformation-Loading,即数据的抽取-转换-加载)过程完成了这一部分的工作。在ETL过程中,数据抽取是关键的一个阶段,因此,提高数据抽取的效率是建立数据仓库的重要工作。本文研究了多种增量数据抽取捕获机制,分析了每种捕获机制的优点与劣势,提出了异构环境下基于数据库事务日志文件的全表比对方式,简称L-C增量抽取方式。在研究了数据库事务日志的记录过程,分析了事务日志可靠性,并详细研究全表比对与MD5校验码结合的思想之后,构建了L-C增量抽取方式模型。在理论上与其他增量捕获机制进行了时间复杂度比较,在实践中进行了设计、实现与比较分析。分析结果与实践结果都表明,L-C增量抽取方式相对现有的增量抽取机制在效率上更加高效,在性能上也较为稳定。解决了分布式异构环境下数据库间的数据抽取,提高了数据抽取的效率和性能,为数据仓库中数据挖掘提供了更加稳固的基础。