论文部分内容阅读
删失型数据(censoreddata)是一种由于实验设备、观测手段等方面的困难而造成缺失的统计数据。近些年来,随着信息技术的快速发展,现代统计数据的复杂性也愈加凸显。而作为广泛应用于工业、医学、经济以及保险等诸多领域的删失数据由于删失机制的复杂性,用于一般数据的统计分析方法对其往往并不适用,因此对于删失数据的预测研究也逐渐地表现出重要作用。但是在对收集到的删失数据进行分布拟合的问题上,如何选择出最为合适的分布也是删失数据预测问题研究的一个重要的分支。
虽然删失数据问题作为诸多领域学者的研究热点,大量的国内外学者从事该方面的研究,但是现有的工作仍存在着以下两个方面的不足:一,在对删失数据的研究中,对于拟合分布的假定往往依赖于正态假定,缺乏对其他分布的考虑;二,目前几乎大多数的文献关于删失数据的研究集中于参数估计上,以删失预测作为研究对象的文章相对较少,而且在对删失数据进行预测的同时缺乏对所选分布的判断。
本文正是在这样的背景下,从以下两个方面展开研究:第一,本文主要以位置尺度分布族中的正态分布和第一类极值分布在第Ⅱ类删失情况下为例,在介绍其参数估计的基础上提出了删失情况下分布选择理论中的似然法和距离法;第二,本文将删失数据的分布选择理论与预测理论结合考虑,并且在对删失数据的预测方法上也进行了一定程度的创新,运用了修正的极大似然方法中的期望修正和泰勒修正两种方式,从而在一定程度上简化了计算的复杂度,而且在预测结果的准确率上也大大提高。
由此,本研究通过理论推导和蒙特卡洛模拟得出以下重要结论,分布选择方法作为预测的前提,选择出最为合适的分布是保证预测准确性的必要条件。基于此,在不考虑预测结果时,只针对于删失数据的分布选择方法来看距离法更具有稳定性,而似然法更具有准确性;不考虑分布选择问题无论是期望还是泰勒预测的方法其预测结果的准确性都大大降低。但是将分布选择理论与预测结合考虑,则表现出在小样本情况下(小于30)距离法和期望预测会得到较好的预测效果,大样本情况下(大于等于30)则表现出似然法和泰勒预测的效果更好。
最后,将本文所提出方法应用于具体的数据进行说明,表明本方法的实际可操作性,从而具有一定的现实意义。
虽然删失数据问题作为诸多领域学者的研究热点,大量的国内外学者从事该方面的研究,但是现有的工作仍存在着以下两个方面的不足:一,在对删失数据的研究中,对于拟合分布的假定往往依赖于正态假定,缺乏对其他分布的考虑;二,目前几乎大多数的文献关于删失数据的研究集中于参数估计上,以删失预测作为研究对象的文章相对较少,而且在对删失数据进行预测的同时缺乏对所选分布的判断。
本文正是在这样的背景下,从以下两个方面展开研究:第一,本文主要以位置尺度分布族中的正态分布和第一类极值分布在第Ⅱ类删失情况下为例,在介绍其参数估计的基础上提出了删失情况下分布选择理论中的似然法和距离法;第二,本文将删失数据的分布选择理论与预测理论结合考虑,并且在对删失数据的预测方法上也进行了一定程度的创新,运用了修正的极大似然方法中的期望修正和泰勒修正两种方式,从而在一定程度上简化了计算的复杂度,而且在预测结果的准确率上也大大提高。
由此,本研究通过理论推导和蒙特卡洛模拟得出以下重要结论,分布选择方法作为预测的前提,选择出最为合适的分布是保证预测准确性的必要条件。基于此,在不考虑预测结果时,只针对于删失数据的分布选择方法来看距离法更具有稳定性,而似然法更具有准确性;不考虑分布选择问题无论是期望还是泰勒预测的方法其预测结果的准确性都大大降低。但是将分布选择理论与预测结合考虑,则表现出在小样本情况下(小于30)距离法和期望预测会得到较好的预测效果,大样本情况下(大于等于30)则表现出似然法和泰勒预测的效果更好。
最后,将本文所提出方法应用于具体的数据进行说明,表明本方法的实际可操作性,从而具有一定的现实意义。