非参数局部多项式回归估计的最优子抽样算法

来源 :系统科学与数学 | 被引量 : 0次 | 上传用户:freeman110_wh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,虽然人们提高了收集和处理数据的能力,但仍存在一些大数据集超出了现有计算机的计算能力.目前,抽取一部分样本来替代全样本进行建模计算是减轻计算负担的一种方法.大数据背景下线性模型的子抽样方法已经得到了相对成熟的研究,在减轻计算量方面获得了很大的优势.文章将线性模型下的子抽样方法推广到非参数回归模型,并推导出了基于子样本的加权最小二乘参数估计对全样本加权最小二乘参数估计的收敛速度,以及子样本参数估计的条件渐近正态性.通过最小化渐近方差的准则,提出了非参数局部多项式回归模型下的OPT和PL两种抽样方案,最后在均方误差、计算成本和拟合效果等方面进行数值模拟,比较了OPT子抽样和PL子抽样相对于均匀子抽样和杠杆子抽样的差别,其结果表明于OPT准则和PL准则的子抽样方法在提高估计精确性和减少计算负担方面具有很大优势.
其他文献
大数据具有体量大、种类丰富、增长速度快等特点,同时也存在价值密度低、代表性差等问题,为抽样调查带来了机遇与挑战.大数据背景下的抽样如何适应新的变化、具有怎样的发展和应用?文章从三个角度进行了讨论.一是在数据流环境下产生了一些适应性强的新型抽样方法,能够高效、准确地获得有代表性样本,并兼顾存储空间、处理的时间与能力.二是借助网络开展调查或进行社交网络数据的收集,发展出一些无抽样框的非概率抽样方法,能够以低廉的成本在短时间内获得大量分析样本.三是综合大数据与抽样调查的优势,进行线上、线下调查数据的融合,文章针
作为最清洁的化石能源,天然气的使用越来越广泛.然而其价格波动将影响天然气行业的投资与需求、导致生产成本管理困难并影响能源政策的制定和经济增长等.因此,充分了解天然气的价格决定机制及未来波动趋势至关重要.研究利用动态贝叶斯网络模型(dynamic Bayesian network,DBN)研究Henry Hub天然气现货价格的波动机制并预测价格波动率.作为研究结果,建立了天然气现货价格形成机制的动态因果网络图,全面展示了驱动价格形成的直接因素与间接因素.预测结果给出了未来24个月天然气现货价格波动率的取值范
抽样调查在大数据时代仍是不可或缺的研究工具.然而,传统调查方式当前面临执行成本增加与数据质量降低的双重挑战.作为降低受访者负担的有效途径,问卷分割设计逐渐受到研究者重视.文章研究针对问卷分割设计中的子问卷分配过程展开讨论:在假设受访者招募服从泊松过程前提下,以降低协变量的子样本间差异为目标设计成组序贯随机过程.理论和数值分析显示该过程相较现有随机化方法具有优良的表现,可以更好地平衡子样本间协变量差异并提高估计量的估计精度.
随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型中参数估计的一致性与渐近正态性.利用数值模拟与实证分析对最优子抽样算法进行评估,结果表明,利用最优子抽样构建的模型与全样本构建的模型在参数估计的精度相近,并大幅减少了运算时间.
大数据背景下,将受访者驱动抽样(RDS)用于网络抽样调查,解决了传统抽样调查难以获得可用抽样框、难以接触被调查者以及难以获得回答等问题,也使得网络调查可以实现概率抽样,得到一定误差范围内的总体参数估计.然而,在实际抽样过程中,同质性问题(即样本单元在推荐同伴时倾向于推荐那些与自己有相同属性的同伴)会导致RDS估计量的方差增大.为解决该问题,文章假定目标总体服从度修正随机块模型(DCSBM),利用区块间的经验转移概率对样本进行区块的事后分层,提出了事后分层与逆概率加权相结合的PS-IPW估计量.通过模拟不同
大数据背景下,对于抽样调查的必要性和重要性,目前还存在一定争论.文章定义了两种类型的大数据场景,一种是现有数据量海量的情况;另一种是现有抽样框名录海量的情况.对于抽样框名录海量的情况下,抽样调查既必要又重要.文章基于某平台类企业的海量抽样框名录,对该平台类企业关心的问题采用目录抽样的方法进行抽样调查研究,并考虑了样本轮换情况下样本量分配、目标量估计与评估等问题,为今后其他类似的抽样调查应用提供一个有益的借鉴.
统计推断通常以置信度和误差两个指标衡量估计精度,但当置信度和误差其大小均不同时,估计量之间的精度比较将十分困难.文章提出了一个可广泛使用的无量纲精度指标,当估计误差不一,置信度也不一时,也能够进行精度比较.另从解释精度影响因素及其作用机制出发,发现了样本量确定公式与信息论之香农定理的逻辑一致性,并借此给出了关于样本量确定公式物理意义的一个新视角下的解释.
随着信息时代的来临,如何从海量数据中快速、有效地挖掘有用信息是目前面临的新挑战.子抽样方法作为大规模数据分析的有效工具,已经受到国内外学者的广泛关注.不过,传统的子抽样方法通常没有考虑到模型的不确定性.当模型假设不正确时,后面的统计推断将会出现偏差,甚至导致错误的结论.为了解决该问题,文章利用频率模型平均的方法构建了子抽样模型平均估计(简称SSMA估计).理论上,文章证明了SSMA估计是全部数据下模型平均估计的一个渐近无偏且相合的估计.另外,我们基于Hansen (2007)的Mallows模型平均方法提
近年来,“双十一”等限时折扣营销模式带给商家和消费者互利与共赢.本文将消费者策略行为考虑到限时折扣模式中,在考虑消费者后悔的情形下分别构建仅线下单渠道与线上线下双渠道共存的两阶段限时折扣定价模型,并进一步分析了促销时间和市场特征(如不同类型消费者比例)对商家最优策略的影响.研究发现:1)消费者会因为繁忙而削弱等待限时折扣购买的倾向,商家可以设置合适的正价与折扣促使消费者正价期购买来提高利润;2)限时折扣策略的最优正价和折扣价格决策与促销时间相关,这种关系随着市场特征不同而变化;3)开展线下限时折扣的同时开
数据中掺杂干扰数据的现象十分常见,对于随机出现的干扰数据处理,目前已有很多方法可以借鉴,但对于人为的干扰数据,若继续使用传统方法,则可能不会达到很好的效果.倾向值可以用一维数值来描述多维数据的特征,且当数据具有相近的倾向值时,其本身常常也很相似,并可能来自同一总体.因此,文章提出一种应用倾向值匹配检测干扰数据的新方法,即用最佳比例匹配来检测干扰数据.文章设计了两个算法,其一用于估计真实数据在原始数据中所占的比例,同时计算真实数据的总体均值估计;另一用于提取拟真实数据并进行建模分析.模拟研究证实了所提出的算