论文部分内容阅读
研究背景:
时间序列模型已经是医学研究领域中重要的分析手段之一。然而,医学时间序列数据收集时常面临各种问题,缺失数据以及不规则采样的情况在实际的资料收集中时有发生,而这些情况有时是无法通过质量控制杜绝的。如何应用数学方法和模型通过填补数据来解决不规则采样以及含缺失数据的时间序列是研究的热点问题之一。
缺失值的填补方法众多,概括有:删除法(Deletion)、加权调整法(Weighting)、填补法。删除法与加权调整法都比较简单易行,但是代价是这两种方法给出的填补值信息量较少,偏离真值。填补法是对各种填补措施的概括,常见的填补方法有替代法和建模估计法。回归填补法、热平台填补法和冷平台填补法以及多重填充法。研究的比较多的多重填充法有以下几种:PMM法(Predictive Mean Matching,PMM)、趋势得分法(Propensity Score,PS)、马尔科夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC)。目前应用于时间序列的新插值方法主要有:抛物线法、牛顿法、分段法等。
这些方法直接应用于时间序列数据时存在以下的问题:①多数缺失值填补方法并不是针对时间序列数据设计的,很多方法在应用于时间序列数据研究时受到限制,难以进行。②缺失值的填补方法一般通过简单的替代和删除获得新的样本,但是由于时间的不可逆性导致每个时间点的测量值的不可重现性,致使这种思路在时间序列中是行不通的。③各种缺失值的填补方法对连续型缺失的耐受性比较差;随机型缺失在达到30%以上时一般的填补方法效果不佳。
本研究提出的基于周期信息的时间序列填补方法具有以下优势:①充分利用了时间序列数据的周期性特点,基于周期信息通过谱峰值加权填补时间序列缺失值,具有时间序列的个性化特点。并融合了时域技术和频域技术,能够较全面地反映时间序列的缺失值信息。②避免了简单处理时间序列缺失值造成的信息损失和浪费,以及生搬硬套式的填补造成原序列数据信息的丢失和扭曲。③该方法对于随机型缺失以及连续型缺失数据的填补均有较稳健的填补效果。
研究目的::
(1)探讨适用于周期性时间序列缺失数据(连续型、完全随机型缺失)的处理流程理论和算法,应用计算机模拟数据探寻填补方法的适用性,形成含周期性时间序列的缺失数据填补流程,以及该方法对不同程度不同类型缺失的耐受性。
(2)对相应的填补方法进行误差估计,用不同的误差评价指标量化填补方法的误差,从不同的角度考察方法的填补效果。
(3)用两种不同缺失类型(连续型、完全随机型缺失)的实例序列进一步研究,探讨模型的实用性以及模型的应用范围。
研究方法:
本研究属统计学方法的应用基础研究。基于时间序列模型的时域理论及频域理论,应用频域信息来指导缺失数值的估算;设计相应的缺失数据的填补流程,并考察缺失数据填补方法的应用效果。通过实际数据和模拟数据的应用评价周期性时间序列缺失值填补方法的填补效果,探讨该流程相应的适用条件。研究方法涉及时域信息提取、频域信息提取、计算机模拟试验、综合多个周期的加权法、实例数据的应用、填补效果考核等,较客观地展现填补方法的填补效果。
结果:
通过模拟,产生时间序列数据资料的两种缺失类型,完全随机缺失和连续型缺失,应用周期性填补方法填补并与spline(本次研究所选的填补缺失值的对照方法,是一种基于三次样条函数对数据进行平滑填补的方法,文中简称为spline)插值填补结果进行比较研究。得到以下结果:①利用SAS模拟数据研究,周期性填补方法对于完全随机型缺失和连续型缺失填补值的标准化的均方根误差(NRMSE)与均方根误差(RMSE)均较小,两种类型的缺失值填补效果都相对较稳定。②随机型缺失时,随着缺失比例的增加周期性填补与spline填补两者的填补效果均有下降,但周期性填补的效果始终优于spline填补的效果。③不同长度的序列对缺失值填补有影响。相同的缺失比例,随着序列长度的增加,周期性填补和spline填补的NRMSE与RMSE值均增大,填补的效果均降低。④连续型缺失随着缺失个数的增多,连续型缺失比较严重时,周期性填补较spline填补法稳定,填补的效果也优。
实例数据研究的结果也显示:①随机型缺失时,周期性填补和spline填补效果相当,NRMSE和RMSE值均较小,近似于0,填补值比较准确。②连续型缺失时,周期型填补较spline填补准确,填补效果好。
结论:
根据缺失值的填补结果可得,周期性填补方法对于缺失类型为随机型缺失和连续型缺失均体现较好的效果。与spline填补相比,周期性填补的稳定性也是较好的。而对于缺失比例相同,序列长度不同的数据,周期性填补效果会随着时间序列的长度增加而改善。对于连续性缺失周期性填补的效果凸显自身的优势。随着连续型缺失个数的增加,周期性填补的效果稳定而准确,不会随着连续缺失个数的增加而有较大的波动。