论文部分内容阅读
随着时间的推移和主题的变化,数据仓库系统中大量的细节级数据成为过期的数据,但是这些数据并不是无用的数据。为了保证当前的联机分析处理(OLAP)和数据挖掘(DM)应用程序的效率和质量,过期的大量的细节级数据必须归档为历史数据,存储在离线的存储设备中或者存储在较低级的存储设备中。归档的历史数据具有访问频率低,甚至可能在相当长的时间内访问频率为零;数据量极大,保存时间相对较长,有些数据甚至需要保存期十年左右;数据必须是可以利用的和有效的等特点。 可扩展标记语言XML(eXtend Markup Language)是本文研究工作的一个重要基础。本文提出了将XML技术应用于数据仓库历史数据的归档,改变关系数据库存储归档历史数据的方式,同时保证数据的可访问性、可利用性和有效性,避免了因系统和平台的差异所造成的数据无效问题,并通过实验证明了采用XML文档方式存储归档历史数据,有利于存储空间的节省。 本文着重探讨了关系模式与XML模式之间的关系和相互转换的方法,实现了关系模式与XML模式之间的映射以及数据的传递。关系数据库与XML文档之间的模式转换保证其元数据的基本一致,而数据传递则保证其数据的可访问性、可用性和有效性。 本文又进一步研究了数据仓库历史数据的归档和重构过程中的代码问题。考虑到当前数据系统结构和归档数据系统结构的不同,对数据之间的差异进行了分析,指出了解决代码差异是数据访问的关键,并对此提出了具体的解决方法。在数据库数据向XML文档传递数据时,主要利用代码回替技术,将代码的实际意义归入到XML文档中,以满足今后的访问。在XML文档重构为当前数据仓库系统的分析数据时,通过代码提取、代码重置和代码扩充等技术,保证重构的分析数据与当前数据的一致性。