【摘 要】
:
缺失数据的存在比较普遍.合理的处理缺失数据能更好的利用数据中的信息来做决策,缺失数据处理方法的研究就变得很有现实意义.本文采用经验似然方法对缺失部分的条件分布函数进行估计,并对具有缺失协变量的Logistic模型进行参数化建模.本文在符合Logistic模型的实际数据中应用半参数方法和其他几种方法并分析验证半参数方法性能,其内容可分为两点:1.通过模拟得到缺失数据,一种方式是完全可观测数据,在MA
论文部分内容阅读
缺失数据的存在比较普遍.合理的处理缺失数据能更好的利用数据中的信息来做决策,缺失数据处理方法的研究就变得很有现实意义.本文采用经验似然方法对缺失部分的条件分布函数进行估计,并对具有缺失协变量的Logistic模型进行参数化建模.本文在符合Logistic模型的实际数据中应用半参数方法和其他几种方法并分析验证半参数方法性能,其内容可分为两点:1.通过模拟得到缺失数据,一种方式是完全可观测数据,在MAR机制下针对协变量模拟不同的缺失率得到协变量缺失数据.完全可观测数据一个是太平洋保险理赔数据,设定2个缺失协变量,模拟的缺失率分别为5%、10%、15%、20%、25%、30%、35%、40%.另一个是德国信用评估数据,设定8个缺失协变量,模拟的缺失率分别为5%、10%、15%、20%、25%、30%.另一种方式通过模拟与原缺失数据相近的全数据,设定3个缺失协变量,在全数据的基础上模拟三种缺失机制:MAR机制、MCAR机制、改进的NI机制下的协变量缺失数据.2.在模拟协变量带缺失的太平洋保险和德国信用评估数据中,采用了半参数方法和CC、均值插补、MI、EM方法来做缺失处理,这几种方法的性能采用三个评价指标偏差、标准差SD、P值来评估,从三个指标综合来看,几种方法都受到缺失率的影响,半参数方法对缺失率的敏感度要低于其他几种方法.在模拟与非酒精性脂肪肝数据相似的带缺失数据中,采用了半参数方法和CC、回归插补、MI、EM方法,从综合结果分析,半参数方法的效果更优,三种机制下半参数方法在MAR机制里的性能优于其他机制.并对非酒精性脂肪肝数据采用了半参数方法和CC方法,半参数方法的性能明显优于CC方法.半参数方法虽然受数据缺失率的影响不是很大,但也需要假定正确的缺失机制,同样受限于估计值的初值离真值的距离,当缺失协变量的维度过大,也同样影响半参数方法的性能.
其他文献
<正>中投顾问发布的《2017-2021年中国医疗大数据市场深度调研及投资前景预测报告》指出,随着医疗和健康数据的急剧扩容和几何级的增长,利用包括影像数据,病历数据、检验检查
为了更好的推进阅读教学的发展、向学生展现语文阅读教学的语文味,现阶段,我国许多一线教师都提出了要创设生本课堂、采用五步阅读教学模式进行教学。之所以会出现这一情况,
2011飲食指南的發展主要目的是提供良好的飲食政策以解決新加坡增加中的肥胖及非傳染性慢性疾病率。這一套飲食指南是本地專家委員會,依審查科學性文獻及2010國民營養調查的
在素质教育背景下,探究性学习是大力提倡的教学方式,初中语文教学同样也不例外。通过对学生的积极引导和探究性教学课堂的构建,可以给语文课堂注入新的活力,从而让初中语文课
“ほ”和“か”这两个助词在日语当中使用十分频繁,这两个助词也是日语学习的难点之一。本文将对二者的用法和区别进行总结和分析。
<正> 一、当前金融违纪违法案件的特点及规律 近几年,违法违纪案件的主要特点概括起主要有: 1.是案件数量逐年增加,呈上升趋势。 2.是金额越来越大。由小案向大案或者特大案
基质酸化作为对碳酸盐岩储层的一种重要增产措施,近年来已经得到了广泛的应用。本文针对碳酸盐岩基质酸化的产能研究,在前人的工作基础上,做出了较为深入的研究。重点工作如
刑事侦查工作中,对足迹的勘验和利用是关系侦查工作成败的重要因素之一,但在实际工作中发现率、提取率和利用率都偏低。其原因是,取证意识不强;勘验、检验技术水平低;不注意
<正>停滞近十年的电力改革又提上了日程。我们既对这一轮电力改革充满期待,同时,也不断反思:电力改革到底要如何进行?新一轮电力改革追求什么?在中国如何走电力市场化改革道
<正>母猪便秘产生的原因:一是因母猪乳房水肿,造成生理性便秘;二是因母猪饲料中药物添加过多,造成药源性便秘;三是饲料营养浓度过高,造成粪便干结引起的料源性便秘;四是一些