【摘 要】
:
数据缺失问题普遍存在于各个领域当中,如果直接使用不完整的数据集,对后续统计分析工作质量可能会产生不利影响,因此,缺失数据的处理逐渐成为统计学者的研究热点。常见的缺失数据处理方法有删除法、回归插补法、多重插补法等。删除法可能会损失一些重要信息,多重插补法操作过程复杂,对比之下,回归插补法的适用范围更加广泛。回归插补法又分为参数回归插补法和非参数回归插补法,由于非参数回归插补法不对回归形式做出具体假设
论文部分内容阅读
数据缺失问题普遍存在于各个领域当中,如果直接使用不完整的数据集,对后续统计分析工作质量可能会产生不利影响,因此,缺失数据的处理逐渐成为统计学者的研究热点。常见的缺失数据处理方法有删除法、回归插补法、多重插补法等。删除法可能会损失一些重要信息,多重插补法操作过程复杂,对比之下,回归插补法的适用范围更加广泛。回归插补法又分为参数回归插补法和非参数回归插补法,由于非参数回归插补法不对回归形式做出具体假设,其插补比较稳健。本文旨在应对响应变量随机缺失情形,提出一种改进的非参数回归插补法。传统的非参数回归插补法有核密度插补法,最近邻插补法,逆概率加权插补法等。近年来,已有学者结合最近邻插补法与核密度插补法,提出了具备双稳健性质的凸混合插补法。考虑到核密度回归函数和最近邻回归函数对倾向函数是否连续的敏感程度不同,调整了凸混合回归函数中倾向函数的位置,形成新的混合回归函数。根据新混合回归函数,首先对响应变量缺失下的总体均值构造了(?)CM1、(?)CR1插补估计量,其次用有效样本替换样本容量构造了(?)MCM插补估计量,接着证明了正则条件下这三种新混合插补估计量的渐近正态性,并比较了(?)CM1、(?)CR1、(?)MCM插补估计量与核密度、最近邻、凸混合插补估计量之间的渐近方差。本文通过模拟研究来验证改进的非参数回归插补法的优越性,通过实证应用来说明其应用价值。在模拟研究中,根据平均绝对偏差、均方误差、CCI、ZS、Q五个评价指标对各插补估计量进行评估,模拟结果表明,倾向函数连续,(?)CM1、(?)MCM插补估计量的综合插补效果最优;倾向函数不连续,三种新插补估计量的平均绝对偏差小于核密度插补估计量,均方误差小于最近邻插补估计量。在对帆船的单位排水量剩余阻力进行预测时,从缺失值预测的平均绝对误差来讲,改进的插补法比核密度、最近邻插补法好;从缺失值预测的准确性来讲,改进的插补法最好。在对北京PM2.5总体均值进行估计时,缺失率为13%的情况下,(?)CR1、(?)CM1插补估计量的绝对偏差小于核密度、逆概率加权、凸混合插补估计量;缺失率为42%的情况下,(?)MCM插补估计量的绝对偏差最小。实证应用说明本文所提出的改进的非参数插补法的实用性,可以运用于生活中对响应变量随机缺失情形的处理。
其他文献
在统计学中稳健统计理论是较为活跃的研究领域,是对传统统计方法的完善和补充。在我们的实际应用中统计方法如果要拥有良好的表现,一定要具备以下条件:首先是该方法所依据的条件要满足实际问题中所需要的条件;二是样本需要是随机样本,过失误差不能够存在。但事实上以上两点很难同时满足,举一个例子,在提出该统计方法时本来是依据总体分布为正态分布的假定,但事实上总体的分布会略有偏离正态分布,或者在观测数据中存在异常数
半无限规划是指决策变量有限而约束函数个数无限的优化问题.近年来,半无限规划问题受到国内外许多学者的广泛关注,这是由于半无限规划在Chebyshev逼近、鲁棒优化、最优控制、极大极小化问题、设计中心法、选址规划等领域有着广泛而直接的应用.目前,有关半无限规划问题的研究主要是借助Clarke次微分来进行的,这需要假设函数是局部Lipschitz连续的.本文在没有局部Lipschitz假设条件下,研究了
在开启中国特色社会主义的新征程之际,大量各个类型的海量数据被收集和储存,而在现实问题中拥有的类型又复杂众多,其中有一种数据呈现出函数曲线形式,称之为函数型数据。而函数型数据处理的经典模式是函数型线性回归模型。在一般情形下,使用函数型线性回归模型主要是根据样本独立的假设,但是,由于在一些空间经济社会发展、空气质量监测等调查中,各国之间或区域间具有大量地缘毗邻或贸易往来。为了更好利用这些毗邻的有关统计
部分线性变系数模型是重要的半参数回归模型,既保留了非参数模型适应性强、回归稳健的优点,又有参数模型易于解释的特点。该模型中不仅有参数分量还有非参数分量,可以反映当模型中只有部分的系数随着某个变量变化而变化的情况,更加贴近现实中的数据状况。在实际的统计工作中,因某些不可控因素往往会造成数据的缺失,如果采取完全数据法,会损失大量信息,使得估计效果差。经过学者们的研究发现使用逆概率加权是一个有效的方法,
重庆作为西南工业重地,第二产业在国民经济中占据重要地位,是经济发展的稳定器。从当前我市经济发展现状来看,我市已经基本完成了重工业化阶段,但环境污染和资源制约正在不断加剧。因此,对于重庆来讲,结合自身情况,促进产业转型升级、加快制造业高质量发展的要求非常紧迫。于是《重庆市推动制造业高质量发展专项行动方案(2019-2022年)》、《“智慧工地”建设工作方案》、《重庆市制造业与互联网融合创新实施方案的
根据世界卫生组织国际癌症研究机构发布的癌症数据表示,中国已成为名副其实的“癌症大国”,其中,乳腺癌是全球女性健康的“头号敌人”,卵巢癌是妇科癌症之首。研究证明,越早筛查出肿瘤的良恶性情况,肿瘤被治愈的概率越大,因此肿瘤良恶性筛查具有很重要的实际意义和应用价值。本文主要利用惩罚逻辑回归研究乳腺肿瘤良恶性问题,组惩罚逻辑回归研究卵巢肿瘤良恶性问题。对于乳腺肿瘤良恶性预测问题,本文选取威斯康星大学UCI
本文主要运用对称山路定理,鞍点定理以及伪指数理论等非线性分析工具讨论一系列涉及Δα算子方程解的存在性和多重性问题,这里Δα算子具体形式为Δα:=(?),其中(?),函数(?)是连续的,严格正并且C~1在坐标超平面外.首先,我们讨论一类半线性椭圆方程:(?)以及其特征方程:(?)这里Ω是RN(N>2)中光滑的有界域,λ是一个参数.我们先给出了特征方程的特征值性质并给予了证明,在这基础上,运用鞍点定理
当前,由于全球范围内过量温室气体的排放,不可避免的引发了一系列的环境问题。我国正处于发展阶段,飞速发展的工业化水平以及日渐推进的城市化建设都需要消耗大量的一次性化石能源。由于我国国土面积较大且人口众多,为维持我国的物资供应以及经济发展,我国在消耗大量的一次性化石能源的同时已经成为了一个二氧化碳排放大国。诚然,在2006年,国家环保局、科技部、气象局、发改委等六部发布的我国第一部《气候变化国家评估报
民办教育事业的迅速发展,在一定程度上造成了地区教育资源配置的不公平以及教育资源的失配,还会影响到教育资源配置效率,从而造成教育资源的浪费。基于此,本研究选取重庆市内涉及“民转公”政策的地区为研究区域,首先对重庆市“民转公”概况和研究区域的教育资源配置现状进行描述性分析,基于研究区域教育资源的数据建立健康距离模型,以此观察研究区域近几年教育资源配置失配度的变化情况;其次,借助DEA模型关于区域的义务
经济增长一直是经济学研究的重要部分,而主导产业作为一个区域经济增长的引擎,对于经济发展模式的改变起着至关重要的作用。中国作为最大的发展中国家,其经济发展在地区之间极度不平衡,为了缩小这种差距发展区域经济成为一个重要的抓手,区域经济的发展能够在一定程度上解决地区间发展不平衡不充分的问题,而区域经济的发展以及产业结构调整的重要落脚点在于区域主导产业的选择与其发展规划上。当前受新冠疫情的冲击,经济发展也