论文部分内容阅读
随着社会的进步和因特网的广泛应用,各种业务过程中积累了大量的非结构化数据,占据了数据总量的85%。非结构化数据信息是政府企业做出决策的重要依据,其重要性不容忽视。如何高效的管理好这些非结构化数据是目前社会急需解决的问题。传统的数据库管理产品虽然在不断推出的新版本添加了对非结构化的数据的管理,但这些管理都是表层的;专门针对非结构化数据管理的诸如内容管理之类的产品价格昂贵,代价较大。在这种情况下,XML(可扩展标记语言)语言为使用者提出了管理非结构化数据的新思路。目前市场上的主流数据库产品都增加了对XML的支持,Oracle公司在其最新的数据库产品中添加了Oracle XML DB。Oracle XML DB内置于Oracle数据库中,是一种高性能XML存储和检索技术,使Oracle数据库不仅可以提供高效完整的关系数据管理功能,还可以提供与原生XML数据库媲美的所有XML数据管理功能。本论文分析了Oracle XML DB的主要技术,对如何在数据库内实现XML内容的管理进行了探讨,并将此技术用到了某省水利成果展示系统中。水利成果展示系统中涉及到了大量的Word文档、图片等非结构化数据。本文通过分析Word文档及图片的结构特点,分别创建对应的转换程序对这些非结构化数据的内容进行读取,并进一步探讨转换规则用以将目标数据转换成为标准XML文档。这样就使对非结构化数据的管理转换为对XML格式的半结构化数据的管理。最后通过Oracle XML DB数据库对XML文档进行了存储管理,从而有效的实现了对于非结构化数据的管理。