论文部分内容阅读
随着信息化技术的飞速发展,各企业和单位都积累了大量的半结构化数据。数字报刊的电子数据即是其中一种。长期以来,各报社和杂志社都积累了海量的数据信息,包括排版文件、文本文件、图片文件和各种Web文件等。这些数据一般都是对社会事实的客观写照和有价值的评论,具有很高的历史价值。如何以恰当的方式描述数字报刊数据,并在此基础上对其进行有效的存储也成为一个需要解决的问题。XML作为数据表示和交换的新标准,具有统一的非结构化信息描述机制。XML的结构性和可扩展性可以方便的描述各种新闻信息和杂志包含的文字内容,描述它们的结构信息。所以,XML成为描述和承载数字报刊信息内容的最佳载体。而在将数字报刊数据转换为XML格式数据时,由于各种原因,可能会造成生成的数量庞大的XML文件的内容存在着大量的脏数据和不完备的数据。这些脏数据的存在势必会严重破坏数字报刊信息的准确性、完备性和客观性。所以如何对这些XML数据进行有效的数据清洗操作,提高其数据质量也成为一个重要问题。根据数字报刊的结构特征,针对相关的问题,本文主要做了下面几点工作:(1)研究了数字报刊数据的各种可行的存储技术,包括文件系统存储方式、关系数据库存储方式、原生XML数据库存储方式;并且针对数字报刊的特点,探讨设计了一种数字报刊数据的存储模型及其索引结构的建立等;(2)基于XML相关技术,设计了数字报刊层次化的XML文档结构,并设计了其内存模型结构。层次化结构的设计将有助于数字报刊数据的存储和数据清洗操作的实施;讨论了数字报刊数据的压缩备份策略;(3)详细论述了数字报刊数据的数据清洗流程及需要解决的具体问题,包括整体评估、标准化、匹配消除重复、补全缺失数据等过程,研究设计了数据清洗实施中关键过程的各个详细步骤。