数据清洗及XML技术在数字报刊中的研究与应用

被引量 : 7次 | 上传用户：jch26

【摘要】

：

随着信息化技术的飞速发展,各企业和单位都积累了大量的半结构化数据。数字报刊的电子数据即是其中一种。长期以来,各报社和杂志社都积累了海量的数据信息,包括排版文件、文

【作者】

：

吕景耀

【发表日期】

：

2009年01期

【关键词】

：

数字报刊 XML 数据清洗数据质量原生XML数据库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息化技术的飞速发展,各企业和单位都积累了大量的半结构化数据。数字报刊的电子数据即是其中一种。长期以来,各报社和杂志社都积累了海量的数据信息,包括排版文件、文本文件、图片文件和各种Web文件等。这些数据一般都是对社会事实的客观写照和有价值的评论,具有很高的历史价值。如何以恰当的方式描述数字报刊数据,并在此基础上对其进行有效的存储也成为一个需要解决的问题。XML作为数据表示和交换的新标准,具有统一的非结构化信息描述机制。XML的结构性和可扩展性可以方便的描述各种新闻信息和杂志包含的文字内容,描述它们的结构信息。所以,XML成为描述和承载数字报刊信息内容的最佳载体。而在将数字报刊数据转换为XML格式数据时,由于各种原因,可能会造成生成的数量庞大的XML文件的内容存在着大量的脏数据和不完备的数据。这些脏数据的存在势必会严重破坏数字报刊信息的准确性、完备性和客观性。所以如何对这些XML数据进行有效的数据清洗操作,提高其数据质量也成为一个重要问题。根据数字报刊的结构特征,针对相关的问题,本文主要做了下面几点工作:(1)研究了数字报刊数据的各种可行的存储技术,包括文件系统存储方式、关系数据库存储方式、原生XML数据库存储方式;并且针对数字报刊的特点,探讨设计了一种数字报刊数据的存储模型及其索引结构的建立等;(2)基于XML相关技术,设计了数字报刊层次化的XML文档结构,并设计了其内存模型结构。层次化结构的设计将有助于数字报刊数据的存储和数据清洗操作的实施;讨论了数字报刊数据的压缩备份策略;(3)详细论述了数字报刊数据的数据清洗流程及需要解决的具体问题,包括整体评估、标准化、匹配消除重复、补全缺失数据等过程,研究设计了数据清洗实施中关键过程的各个详细步骤。

其他文献

物联网技术在保税物流管理中的应用

在社会经济快速发展与信息技术不断变革的双重带动作用下,我国的物流行业逐渐进入了转型升级时期。物联网技术作为物流行业的一种新型信息基础设施,对于保税物流管理有着极其

期刊

物联网技术保税物流管理应用物流管理

南方早期乡村建筑形式的探讨

本文通过列举比较具有代表性的南方早期乡村建筑形式,分析这些建筑形式形成的原因及其特点,以引起人们对南方早期乡村建筑的关注,从而更好的保护和研究南方早期乡村建筑。

期刊

南方乡村建筑探讨

构建美术和谐课堂,推崇学生的个性发展

文章从小学美术教学现状分析入手，提出了构建美术和谐课堂，推崇学生的个性发展的具体措施，即造愉悦的课堂氛围，激发个性潜能；把握课堂的有利时机，实施激励指导。

期刊

小学美术个性发展和谐课堂

非战斗减员给医疗救援联合行动带来的影响与对策

2009年6月,我院部分官兵远涉重洋,在非洲大陆与加军成功举行了“和平天使-2009”中加医疗救援联合行动,目的是锻炼中加两军卫勤部队,提高应对突发事件应急卫勤保障能力,其军

期刊

医疗救援非战斗减员影响与对策

基于Web的公交查询系统的设计与实现

随着经济的飞速发展,汽车越来越多,城市的道路建设远赶不上城市化进程的加快,交通拥堵已成为制约城市发展的重要问题之一。城市公共交通覆盖面广、经济快捷。为了缓解交通压

学位

公共交通公交查询出行行为网络路径换乘查询

皖南民居的生态适应性在现代设计中的应用方法探析——以深圳万科第五园为例

文章立足于对传统民居建筑形式深层理念的追溯,用生态的眼光重新审视传统民居与现代建筑的关系,通过对万科第五园的综合调研,从建筑形态、空间布局、院落组合、等方面深入分

期刊

皖南民居生态适应性现代设计应用方法第五园

建筑施工组织设计编制方法探讨

建筑施工组织设计是对施工活动实行科学管理的重要手段,本文简要的探讨了建筑工程施工组织设计的一般内容、存在问题、改进措施等,以期能对建筑工程施工组织设计编制工作给以

期刊

建筑工程施工组织设计编制探讨

干湿循环与荷载耦合作用下氯离子侵蚀混凝土模型研究

混凝土结构耐久性问题是当今工程界普遍关注的问题。干湿交替区域混凝土受氯离子侵蚀严重,以往氯离子侵蚀模型均忽略荷载作用而与实际不符。本文针对此问题,研究了非饱和状态

学位

混凝土耐久性氯离子干湿循环荷载理论模型水分扩散表面因子

论艺术设计的学科交叉与融合

文章从学科建设的角度,阐述了艺术设计学的学科属性及其学科交叉与融合的必要性;并针对其艺术设计学的学科建设,提出相关的艺术设计学科交叉与融合的具体思路。

期刊

艺术设计学科建设交叉融合

“中国英语”浅析——从文化传输的双向性看“中国英语”的发展

随着中国政治经济和综合国力的日益增强,中国英语不断丰富发展并发挥着日益重要的作用。本文以跨文化交际中提高文化传输的双向性为切入点,结合中国英语的形成,定义及特点,对

期刊

文化传输的双向性中国文化失语中国英语

数据清洗及XML技术在数字报刊中的研究与应用

其他学术论文