论文部分内容阅读
Bayes线性判别法是判别分析中的经典模型,适用于多元正态分布数据,其判别效果诸多因素的影响。如何针对不同的研究目的与研究内容,结合具体的数据分布情况,选择最佳的函数以获得最低误判率,是本研究关注的重点。以某医院体检健康中青年人体检数据为蓝本,本研究采用MonteCarlo方法,系统的模拟出两种先验概率的确定方式(等概率与构成比)、6个水平的总体阳性比(0.04,0.1,0.2,0.3,0.4,0.5)、5个训练样本容量水平(50,100,200,500,1000)以及变量间不同相关程度(独立、中度相关、高度相关与全模型),各种组合设定条件下线性Bayes判别函数的刀切法误判率。并对判别效果进行单因素组间比较、析因设计方差分析和线性回归分析。模拟比较结果显示,先验概率的选取和总体阳性比水平对误判率有较大影响作用,以构成比作为先验概率误判率显著低于等概率法且误判率随着总体阳性比的升高而增大;训练样本容量与模型中变量相关程度对判别效果影响不明显。在进行Monte Carlo模拟并得出结论的基础上,应用该医院体检数据,进行真实数据的实例验证,实例验证分为两部分。首先完全延续Monte Carlo模拟的路线,对真实数据进行抽样,选择相应的变量比较四种模型不同样本量、先验概率确定方法设定条件下,模型误判率的情况。第二部分选取三个有实际意义的待判疾病,纳入与疾病有一定关联的人体指标作为自变量建立函数。每种模型的自变量个数为4。样本量水平同样固定为50、100、200、500、1000五个档次,每种设定均采用等概率与构成比两种方法来确定先验概率。实例验证结果为:第一部分结果与预期完全一致,在样本量为200,使用构成比建立全模型时最低;第二部分与预期基本一致,首先以构成比为先验概率的误判率符合前文总结的走势规律,而以等概率为先验概率的误判率与预期出现了偏差,其次样本量对结果的影响基本与预期保持一致,模型一、二均在200左右的水平达到较好的判别效果,模型三则略有扩大,但200以后误判率的降低很少。