大数据情境下基于切片逆回归的抽样方法研究

来源 :广西师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:xtb0909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,抽样调查依然是一种不可或缺的数据获取和统计推断方法,但抽样调查方法需要适应大数据的新时代情境,才能更好地体现其应有的价值.其中,如何抽取到对研究变量有代表性的样本是最值得关切的问题.本文提出一种基于切片逆回归的综合得分抽样法,利用切片逆回归能将因变量信息融入到自变量的特点,先对大数据进行切片逆回归分析,改进其降维过程,再计算各个体主成分综合得分作为入样概率进行抽样.数据模拟分析结果显示,在大数据情境下,相比于未实施抽样和简单随机抽样估计而言,本文提出的方法均具有更好的抽样估计效果,且当个体差别较大时抽样估计效果会更好.最后,实际数据检验也证实了此方法的可行性和有效性.
其他文献
随着医疗技术的进步,各种新技术与新方法不断涌现,评价这些方法测量结果的一致性尤为重要.可靠的一致性评价结果对提高医疗服务质量、减少医疗资源浪费具有重要意义.目前我国对临床测量中Bland-Altman一致性评价方法的研究较少,且在临床应用中该方法的使用不当问题凸显.本文讨论单次测量和重复测量情况下的Bland-Altman一致性评价流程,针对不同数据类型介绍其处理方式,并对该方法的使用规范进行梳理,以帮助医学工作人员在临床数据分析中正确使用统计分析方法.
随着医学的发展,某些无法治愈的疾病能够被治愈,并且在一段时间内不复发,从而导致在复发事件数据中出现治愈个体.本文针对复发事件数据基于含治愈个体的半参数比率模型提出一种经验似然方法,建立经验对数似然比函数,并证明Wilk\'s定理.通过数值模拟将所提出的经验似然方法与正态逼近方法进行比较,得到在样本量较小时,所提出的经验似然方法解决了正态逼近方法覆盖率不足的问题.最后将本文方法应用于一组膀胱癌数据的分析,得到的结果与实际相符.
广义极值分布自提出以来就受到众多学者关注,它可以用于拟合某些寿命数据,在医学、 工程和气象等领域应用很广泛.本文主要在区间删失I型数据,即现状数据下研究三参数广义极值模型的贝叶斯回归分析.基于广义极值分布的位置参数引入协变量,建立位置参数与生存时间的贝叶斯回归模型,并采用Gibbs抽样和MH算法相结合的MCMC方法,从各个参数的后验分布中进行抽样,得到参数的估计值.利用R软件进行数值模拟,比较极大似然估计和贝叶斯估计在有限样本下的效果,结果表明参数生存回归模型拟合效果好,模拟结果显示贝叶斯估计优于极大似然
本文研究非对称DAR模型的估计和检验问题.运用拟极大似然方法,构造模型的参数估计,在某些正则条件下,证明估计的相合性和渐近正态性.基于此,构造拟似然比统计量检验模型的非对称性,在原假设和备择假设下,给出该统计量的渐近分布.数值模拟和实证分析结果表明:本文所构造的模型参数估计和检验方法具有良好的有限样本性质.
变量筛选是处理超高维数据的一种有效方法.针对部分变量与响应变量显著相关,Barut等基于线性模型假定提出CSIS方法,能有效降低伪变量错选概率.但CSIS方法线性模型假定严苛,实际研究中有时不能事先确定模型结构.由此,本文基于非参数可加模型提出条件非参数独立筛选方法(CNIS),不需要对模型结构进行假定,增大了适用范围.同时,在适当条件下,证明本文方法第1阶段的筛选具有一致性筛选性质,能以概率1保留重要变量;第2阶段的变量选择也具有良好相合性.Monte Carlo数据模拟结果表明:相较于NIS方法,本文
在面板数据混合效应模型中,大量未知随机效应的存在,给模型参数估计带来极大困难;同时随机误差的分布未知,不同分布下的随机误差会增加模型计算的复杂度,对固定效应与随机效应系数的变量选择与估计带来困难.为了解决这一问题,本文建立贝叶斯双Adaptive Lasso分位回归模型,将Adaptive Lasso惩罚函数同时引入到含固定效应与随机效应的面板数据中,构造参数估计的Gibbs抽样算法.蒙特卡罗模拟结果表明,该方法不仅能准确估计不同面板数据模型的参数系数,还能对重要变量进行选择.
随着我国风电产业迅速发展,风电并网规模不断扩大,准确预测风电场输出功率是降低风电波动对电网影响、提高电能质量、保证电网稳定运行的有效途径.本文采用箱型分析及热卡填充的方法对数据集中的异常数据进行清洗与重构.采用遗传算法与EEMD分解算法相结合的方式改进BP算法,并且根据不同时间尺度预测结果对比,相对于传统预测模型而言,本文EEMD-GA-BP模型具有预测精度高,预测效果更为稳定等特点.
科学研究中,样本量和功效计算是非常重要的工作.可加风险模型是生存分析研究中经常用到的半参数模型,其协变量对基础风险函数有加法作用.和比例风险模型相比,可加风险模型在许多应用中效果更好,尤其是协变量取值为0或1时.本文基于Wald检验,提出一种计算可加风险模型现状数据功效和样本量的新方法.模拟结果说明该计算方法十分有效.另外,本文通过1个实际例子展示新方法的应用.
含异常值的数据和高维数据越来越频繁地出现,对现有的稳健估计和多元线性回归估计方法提出了挑战.传统的多元线性回归模型估计对异常值非常敏感,基于MCD估计方法的多元线性回归估计对异常值有一定的抵御作用.但随着数据维数的增加,MCD估计的精度不断降低,稳健性也随之降低,且当数据维数大于样本量时MCD估计方法失效.因此,本文利用MRCD的均值向量和协方差矩阵估计,提出了基于MRCD估计方法的高维稳健多元线性回归模型估计.数值模拟的结果表明,基于MRCD估计方法的多元线性回归模型估计能很好地抵御异常值,且在数据维数
采用4种区间型数据计量建模方法,综合分析我国8个省份城市1993—2018年气候变化和农业生产投入要素对粮食产量影响.采用5个评价指标衡量4种建模方法的预测精度,给出4种方法的回归结果并进行比较分析,应用最优回归方法对我国粮食产量变化进行预测.研究结果表明:我国粮食产量存在地域性差异,部分省份2009以年前单位面积粮食产量变化幅度较大,但近10年我国8大产粮省份的单位面积粮食产量趋于稳定.同时,气候变化和农业生产投入要素均对我国粮食产量起显著作用.最后,本文对提高粮食产量给出相应政策建议.