数据仓库历史数据归档与重构的策略研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:liongliong545
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时间的推移和主题的变化,数据仓库系统中大量的细节级数据成为过期的数据,但是这些数据并不是无用的数据。为了保证当前的联机分析处理(OLAP)和数据挖掘(DM)应用程序的效率和质量,过期的大量的细节级数据必须归档为历史数据,存储在离线的存储设备中或者存储在较低级的存储设备中。归档的历史数据具有访问频率低,甚至可能在相当长的时间内访问频率为零;数据量极大,保存时间相对较长,有些数据甚至需要保存期十年左右;数据必须是可以利用的和有效的等特点。 可扩展标记语言XML(eXtend Markup Language)是本文研究工作的一个重要基础。本文提出了将XML技术应用于数据仓库历史数据的归档,改变关系数据库存储归档历史数据的方式,同时保证数据的可访问性、可利用性和有效性,避免了因系统和平台的差异所造成的数据无效问题,并通过实验证明了采用XML文档方式存储归档历史数据,有利于存储空间的节省。 本文着重探讨了关系模式与XML模式之间的关系和相互转换的方法,实现了关系模式与XML模式之间的映射以及数据的传递。关系数据库与XML文档之间的模式转换保证其元数据的基本一致,而数据传递则保证其数据的可访问性、可用性和有效性。 本文又进一步研究了数据仓库历史数据的归档和重构过程中的代码问题。考虑到当前数据系统结构和归档数据系统结构的不同,对数据之间的差异进行了分析,指出了解决代码差异是数据访问的关键,并对此提出了具体的解决方法。在数据库数据向XML文档传递数据时,主要利用代码回替技术,将代码的实际意义归入到XML文档中,以满足今后的访问。在XML文档重构为当前数据仓库系统的分析数据时,通过代码提取、代码重置和代码扩充等技术,保证重构的分析数据与当前数据的一致性。
其他文献
随着数据库的应用范围不断扩大,人们越来越希望能够共享位于分布异构数据源中的数据。由于多数据库系统屏蔽了不同局域数据库在物理上和逻辑上的差异,使用户实现了对异构数据库
随着整个社会信息技术的发展,在并行计算、分布式计算和网格计算三大计算模型相继被提出并发展成熟以后,学术界又提出了一种新的计算模型——云计算。云计算通过网络将大量的
织物仿真技术是将计算机辅助设计(CAD)技术应用到织物设计中,通过计算机设计织物的纹样、图案,模拟生成具有真实感效果的织物表面外观。 织物仿真技术的应用不仅可以提高纺
本文从元数据的获取和维护的角度出发,对数据抽取和更新中存在的问题进行了研究,最后给出了系统实现。主要研究成果如下: (1)研究了ERE中的切分二义性问题,提出了切分二义性的
随着网络技术的不断发展和网络应用范围的不断扩大,对网络的各类攻击与破坏也与日俱增,随着网络攻击手段的多元化、复杂化、智能化,单纯依赖防火墙等静态防御已难以胜任网络安全
本论文旨在研究利用现有无线局域网进行高精度室内定位的技术。作深入研究了现有无线定位技术和802.11无线局域网的接入机制,广泛调研了国外无线局域网定位技术的先进研究成果
随着电子商务在全球范围的广泛应用,电子商务的纠纷也越来越多。在众多的电子商务纠纷中,相当一部分是由于电子支付协议本身的缺陷引起的。因而电子支付协议成了电子商务发展
Linux把服务器,甚至PC机联接起来筑成一个稳定强大的虚拟计算机,Linux的出现让服务器集群变得普及。本文主要是研究了Linux下负载均衡集群的原理、技术、思想,并对现有的Linu
在迅速发展的网络经济模式下,符合OGSI规范的网格服务作为Web服务的扩展,在提供良好的互操作性的同时,改善了传统分布式集成系统的性能,并使得软件部件的商业化更加容易。在
近年来,各种针对信息系统的攻击越来越普遍,并且变得更加难以防范。其攻击方式从传统的本地病毒攻击逐渐演变成分布式、高速传播的网络攻击行为。现有的入侵检测技术由于本身的