论文部分内容阅读
Firth Logistic模型最早是由D.Firth于1993年提出的,旨在解决极大似然估计产生的偏差问题。极大似然估计方法是Logistic模型估计系数的经典方法,但是估计存在渐近偏差,尤其在小样本的情况下。Logistic模型的似然函数加上基于信息矩阵的惩罚项,得到Firth Logistic模型,可以达到“事前”预防偏差产生的目的。自Firth Logistic模型提出至今,有两种主流应用,其一,存在稀少事件的场景下Logistic模型估计的系数偏差很大,往往会低估事件发生的概率;其二,数据存在分离的场景下,最常见的警告是估计概率至少有一个趋向于0或者1,甚至会出现似然函数呈现单调性,导致算法不收敛或即使达到了迭代次数,返回估计值,也可能会存在某些估计系数趋于无穷的情况,此时的系数估计不再可信。Firth Logistic模型可以有效应对稀少事件或分离数据,并且总是可以得到有限的系数估计。本文首先通过数值模拟,探索发现小样本或稀少事件才是致使Logistic模型失效的原因,而非样本比例或样本的不平衡程度。同时,模拟完全分离和拟完全分离两种特征的数据,证明Firth Logistic模型的适用性。无论是小样本或稀少事件,还是分离数据,目标类事件的数量总是很有限的,客观上,对模型解释变量的数量就有所限制。因此,选择重要变量,构建稀疏模型就是一件必要且重要的事情。基于此,本文提出将 SCAD(Smoothly Clipped Absolute Deviation)惩罚纳入 Firth Logistic模型中,构建SCAD-FLR模型,实现稳定且合理的估计,同时进行变量选择的双重目的。本文借助五折交叉验证法选择最优参数,并使用Newton-Raphson算法进行最优化求解。通过全面且充分的随机模拟,考察模型的性能,并确定模型范式。最后,在真实数据中验证了模型的可用性和优越性。