超高维删失数据的条件分位数特征筛选

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:ypf0856
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
超高维数据普遍存在于生物信息、图像处理和经济问题中.在这类数据中,协变量的维度远大于样本量,并且随着样本量的增加而增加,然而起到作用的变量却是少数,呈现出稀疏的特点.在统计建模的过程中,如果选入了与响应无关的变量,一来会干扰对变量间关系的理解,二来今后需要对该变量进行持续观察而加大成本.需要从中筛选出重要的变量以降低协变量的维度.在超高维数据中,传统变量选择方法计算代价高、统计精度和算法稳定性都受到挑战.为了克服超高维所带来的问题,以SIS(Sure independent screening)为代表的特征筛选方法受到关注,发展出许多有效的方法.本文研究的是超高维删失数据的特征筛选问题,响应变量被右删失,需要通过观测数据筛选出与响应变量相关性强的特征变量.由于响应变量没有被完全观测,直接应用SIS等方法进行特征筛选会有较大的偏差,如果只用样本中被完全观测到的那部分,对样本中所包含的信息的利用又不够充分,虽然现在也有不少学者研究超高维删失数据的特征筛选问题,但一般都基于指定的模型,或是假定删失变量与协变量无关,在使用时稳定性较差.
  本文利用条件分位数分别在响应变量非随机删失和随机删失的情形下研究了超高维数据的特征筛选问题.使用条件分位数可以将删失问题转换为完全观测数据的问题,在响应变量被非随机右删失的时候,利用响应变量观测值的条件分位数度量了每个特征和响应变量之间的相关性,然后利用该相关系进行特征筛选.在响应变量被随机右删失的时候,允许删失变量与部分活跃变量(与响应变量相关的变量)具有相关性,利用响应变量观测值关于删失变量和特征变量的条件分位数,可以度量每个特征和响应变量之间的相关性.
  在一定假设下,非随机删失时的特征筛选方法具有确定筛选性质和排序一致性;在删失变量与部分活跃变量相关时,随机删失时的特征筛选方法也具有确定筛选性质和排序一致性.模拟表明,与已有的方法相比,在非随机删失时,利用单调不变性所建立的方法不仅在计算形式上更简单,在筛选能力上也不亚于其他基于条件分位数的方法;在随机删失时,如果协变量与删失变量相关,所提该方法具有相对优势.
其他文献
农业从古至今都是我国的支柱型产业,在经济发展中发挥着重要的作用,但由于农业自身生产周期较长的特殊性,自然条件的变化以及市场价格的波动会对农业的生产情况产生很大影响。这也就意味着,农业的发展不能靠其自身的自给自足而需要国家给予大力的支持,以保证其健康持续的发展。广西作为西部少数民族地区和后发展欠发达地区,农业人口占比大,广西农业发展对财政支农资金的要求更为紧迫,任务更为艰巨。研究广西财政支农支出的效
改革开放四十年来,中国经济发展取得巨大成就,规模庞大的流动人口是城市化、工业化进程的重要驱动要素,但他们在共享改革发展成果方面相对处于弱势,集中表现在基本公共服务的保障、合法权益的维护、生活条件的改善等方面,致使流动人口的城市融入问题备受关注。在流动人口财富积累水平偏低、缺乏财产性收入的情况下,工资性收入几乎构成了其收入的全部来源,成为流动人口融入城市发展的经济保障,因而工资收入水平直接影响到流动
学位
2020年中央农村工作会议强调:“加大财政涉农资金统筹整合力度,发挥财政资金的撬动作用,引导社会资本和信贷资金投入农业农村;深化农村金融改革,发展普惠金融,支持涉农金融机构的金融科技创新和应用,更好地服务农业农村”。同时,2021年中央一号文件指出:坚决把解决好“三农”问题作为工作的重中之重,加快农业农村现代化,实现农民生活富裕富足,农民增收增长继续快于城镇居民。在继续实施精准施策和帮扶机制的基础
当数据量非常大或者数据以分布式的方式存储时,由于计算机存储和内存的限制以及通信成本等方面的考虑,传统的统计推断方法不再可行。为了有效地解决大数据情形下的分位数回归模型参数估计问题,本文基于分治策略的框架下提出了一种基于平滑经验欧氏似然的分位回归分布式估计量。分治策略的优势在于只需要在本地设备中计算并传输一些低维的统计量,然后利用渐近可以忽略的误差,就获得整个数据集分位数回归模型的参数估计。在一定条
添加次序试验是一种研究材料或成分的添加顺序对结果有影响的试验,这种试验的主要目的在于预测和确定优化反应中反应物的最优添加次序。由于添加次序试验的广泛应用空间,许多学者提出了不同的模型和设计表,但当整个添加次序试验要考虑试验因子的因子效应对结果的影响时,相关的设计方法和理论变得复杂,现有的方法也较少。针对这种情况,本文提出了一种设计表构造方法,基本思想是将部分全添加次序设计表与两水平部分析因设计表通
学位
在疾病筛查的研究中,分组检测(Group Testing)是一种常用方法,该方法通过集合多个样本合并检测进行个体性状分类,替代了单体检测来筛选患病个体,具有节约成本的优势.1943年Dorfman提出的分组检测方法被认为是该领域的开创性发展,自那开始,该方法得到越来越多统计学者的关注,目前已经应用至公共医疗卫生、生物、化学、药物筛选、基因选择等领域,为大规模人群疾病筛查节约了成本.我们讨论的分组检
学位