论文部分内容阅读
目的 探讨全国克山病监测数据中可能存在的问题及解决方法,以提高监测数据的质量和监测结果的可靠性。方法作者利用SPSS 15.0统计软件对2009年全国克山病监测数据中姓名、性别、年龄以及克山病诊断4个关键变量进行清洗,清洗内容主要包括重复记录、缺失值、异常值和逻辑错误。以姓名、性别、年龄、现住乡和现住村等变量组合成不同条件,使用Identify Duplicate Cases命令查找重复记录,并将其返回数据上报机构,最后进行删除或合并;使用Frequencies、Descriptives和Select if等命令查找含缺失值、异常值和逻辑错误的数据,然后将其返回数据上报机构,根据反馈的结果修订,还可利用变量间的相互关系,并咨询克山病临床专家进行修订。结果数据清洗共发现并修订重复记录464条,缺失值2047个(姓名0个、性别3个、年龄32个及克山病诊断2012个),异常值1988个(姓名6个、性别3个、年龄10个及克山病诊断1969个),克山病诊断的5种逻辑错误记录共105条。结论全国克山病监测数据在上报时存在重复记录、缺失值、异常值和逻辑错误等问题,数据清洗可以提高克山病监测数据质量,保证监测数据的真实性和可靠性。