论文部分内容阅读
本文以公共卫生共享数据为研究对象,研究共享数据的数据质量分析与评估方法。首先,在认真总结前人研究成果的基础上,结合我国公共卫生共享科学数据的实际情况,明确了数据共享对数据质量的要求,确定了共享数据中存在的常见数据质量问题。在当前数据质量分析评估理论的基础上,提出了一个基于规则的数据质量分析评估模型,这一模型采用三个级别的分析策略,将数据质量分析评估过程清晰地分为几个重要的阶段,为分析人员从规则建立到指标的计算等提供了指导。
在建立模型的基础上,结合公共卫生共享数据的具体情况,设计和实现了一个共享数据质量分析评估系统PHDQAAS(公共卫生共享数据质量分析评估系统),该系统为数据质量分析评估提供了数据概要分析、空值分析、异常值分析、逻辑关系分析和重复记录分析等自动分析功能,为数据共享工作者提供了一个跨平台、多用户分布式的数据质量分析评估平台。
本文所提出的基于规则的数据质量分析评估模型是对公共卫生共享数据质量研究的有益探索,具有一定的理论指导意义,基于此模型开发的公共卫生共享科学数据系统PHDQAAS是将数据质量分析评估进行自动化、简单化的大胆尝试,对以后的数据质量分析评估技术的应用实践具有一定的启发和借鉴意义。