论文部分内容阅读
随着企业和组织的信息化建设的不断发展,企业或组织已收集了大量的数据,利用数据仓库技术(Data Warehousing)和联机分析处理技术以及数据挖掘技术为决策者提供了定量化的决策依据。数据仓库系统已经成为企业和组织生产经营决策不可或缺的辅助工具。然而,传统的数据仓库一般是周期性更新的,并且更新的周期是一天或一周。所以,决策所用的数据并没有包括最新的信息。从而,基于传统数据仓库的战略决策在时间的实时性上不能满足要求。因此,出现了实时数据仓库系统(Real-Time Data Warehousing,RTDWH)。
实时数据仓库系统中数据源的数据变换需要及时地捕获以便能够及时地更新到数据仓库中,而数据仓库上的查询分析又是在线的,因此会引起数据更新和用户的查询分析之间的冲突。本文的主要工作也致力于解决以上两个问题上。
针对变化数据的捕获问题,本文采用了Oracle提供的CDC工具来实现变化数据捕获。本文中给出了一种基于CDC工具的变化数据捕获方案并给出了相应的流程设计,同时通过实验证明了该方案的可行性。在解决数据更新与查询冲突的问题上,采用由用户内部机制与外部机制结合的策略,并通过服务质量(QoS)指标监测反馈来保证数据的新鲜度与查询的响应速度。外部机制是由用户指定查询速度需求与数据新鲜度的需求情况下,来完成数据的更新与查询的调度算法;而内部机制是在外部机制不能保证系统正常更新的情况下,来强行执行数据更新的一种算法。实验结果表明本文提出的QoS指标和调度策略,能够很好地协调数据更新和用户查询之间的冲突。