【摘 要】
:
变量选择可以帮助我们从大量的数据中提取出有价值的信息,提高模型的预测精度.如何高效地从众多的协变量中选出对因变量有重要作用的变量是统计推断中的重要问题.1996年,统计学家Tibshirani提出了重要的方法——Lasso,该方法可以使模型产生稀疏解,但不具备Oracle性质.因此,Zou在Lasso的基础上进一步提出了 adaptive Lasso,此方法对不同的系数进行不同程度的压缩,更容易挑
论文部分内容阅读
变量选择可以帮助我们从大量的数据中提取出有价值的信息,提高模型的预测精度.如何高效地从众多的协变量中选出对因变量有重要作用的变量是统计推断中的重要问题.1996年,统计学家Tibshirani提出了重要的方法——Lasso,该方法可以使模型产生稀疏解,但不具备Oracle性质.因此,Zou在Lasso的基础上进一步提出了 adaptive Lasso,此方法对不同的系数进行不同程度的压缩,更容易挑选出重要的变量,并且此方法具备Oracle性质.很多高维数据中变量之间存在相关性,此时Lasso方法就不能充分反映变量之间的关系,于是弹性网(Elastic-net)方法应运而生,此方法能够使高度相关的变量同时进入模型或从模型中剔除,但此方法不具有Oracle性质.因此,在Elastie-net和adaptive Lasso的基础上提出了具有Oracle性质的自适应弹性网(adaptive Elastic-net)方法.以上这几种方法都是基于最小二乘的惩罚变量选择方法.当数据中出现异常值或重尾分布时,基于传统的最小二乘的惩罚变量选择方法将不再适用,需要寻求更稳健的估计方法.而M估计在稳健统计推断领域中已经被广泛研究.此外,随着科学技术的快速发展,实际生活中产生了大量的数据,这些数据呈现高维度,强相关,多冗余的现象.因此,在稳健估计的基础上还需要寻求能够有效处理数据共线性问题的变量选择方法.综合以上问题,本文提出了一种带惩罚函数的M估计,即基于标准误调整的自适应弹性网的惩罚M估计.本文内容主要研究基于标准误调整的自适应弹性网的惩罚M估计方法,该方法以M估计和它的标准误作为权重代替普通的最小二乘估计,并给出此方法的相合性和渐近正态性及其理论证明.对于高维情况的变量选择,在保持估计的准确性和处理多重共线性问题的同时,使用多个调整参数.这可以通过迭代来实现,其中每一步迭代都使用单独的调整参数,这就是MSA-Enet(the multi-step adaptive Elastic-net)的思想.本文用这种方法对超高维数据进行降维,使数据维数pn降至小于样本量n,然后再运用本文提出的方法进行变量的选择和参数的估计.最后,通过数值模拟分析和实例分析对本文所提出的方法进行验证,模拟和实例分析结果显示本文提出的方法比其它常用的变量选择方法有一定的优势.
其他文献
传统的不控整流与相控整流功率因数低、动态响应慢、网侧电流谐波大,这给电力系统注入大量谐波干扰,降低了电能质量。而三相电压型PWM整流器具备单功率因数运行、网侧电流谐波小、能量可双向流动、输出电压可调等特点,这些优越的性能使其在风力发电、超导储能、有源滤波与无功补偿、电机变频调速等方面有广泛的应用。然而,三相电压型PWM整流器还是存在抗干扰能力不强与鲁棒性较差的问题因此对三相电压型PWM整流器进行鲁
终身监禁刑广泛存在于世界各国的刑罚体系中,作为自由刑的一种,其在刑罚体系中的严厉性仅次于死刑,在废除死刑的国家里,终身监禁刑更是作为最严厉的刑罚出现的。在不同的国家
公平一直以来都是人类社会所追求的目标,公平能够使人们的合理收益得到保障,也促使社会能依照一定的准则运行,长远来看,有利于社会稳定。早在婴儿时期,儿童就具备了公平意识,到小学中后期,儿童才发展出真正的公平感,但是在实际生活中面对不公平现象,儿童做出的反应会受到很多相关因素的影响。因此,本研究的实验一基于第三方视角来,运用修改的独裁者博弈范式,设计了有代价和无代价两种情景,抽取70名5年级儿童,记录儿
《猛进》是北京大学教授徐旭生和李宗侗等人于1925年创办的一份以政治观察和政治评论为主的周刊。作为当时在北方具有重要影响的三大周刊之一,其政治影响较大。本文试图通过
对于专利纠纷,我国实行的是行政与司法并行的“双轨制”解决机制。但是,随着我国司法与行政管理系统的进一步发展,实践中该机制已经暴露出许多问题,如果这些问题不能很好地加
印染废水在我国工业废水中占有很大比重,成为威胁我国水环境安全的污染源之一。在众多水处理技术中,絮凝法具有易操作、成本低和易于工业化的特点而被广泛应用。本文采用絮凝法实现了印染废水的脱色,得到了大量的絮凝淤泥废弃物。淤泥废弃物常用的处理方法通常是焚烧和填埋,容易对环境造成二次污染。本文将富含氮、硫的絮凝淤泥作为前体,热解处理制备了杂原子掺杂碳材料并应用于电化学领域,实现了变废为宝。本文主要做了以下三
本研究以关联理论为指导,以笔者本人于农业农村部主办的水产培训班中的交替传译经历为研究对象,研究课堂教学场景提高交替传译连贯的策略。笔者首先回顾了连贯研究的历史,介绍了关联理论重点内容,并分析了关联理论对连贯的解释力。之后,结合关联理论,笔者分析了本次埃及培训班交替传译录音的转写内容。基于关联理论的框架,笔者首先归纳了影响交替传译连贯的因素,随后结合本次口译过程中一些具有代表性的案例,分析了这些因素
本文分别从中韩两国专利复审的审查主体、案件类型、审查程序等方面进行详细的考察,进而对两国专利复审制度的差异进行比较研究。中国与韩国之间专利复审制度的差异体现在两
深水沉积是地球上最主要的沉积物搬运方式之一,其中蕴含着丰富的油气资源,但由于深水流体类型多样,且不同类型流体之间可相互转化,导致其沉积作用、沉积特征复杂多变,以山东
【研究背景】我国肝癌的发病率和死亡率逐年上升,肝细胞癌(HCC)约占肝癌病例总数的70%85%,其中约90%的HCC患者存在乙型肝炎病毒(HBV)感染,即乙型肝炎病毒相关性肝细胞癌(HBV-HCC)。大部分患者在确诊时就已经处于疾病中晚期,肝动脉化疗栓塞术(TACE)是目前国际公认的、肝癌非手术切除的首选方法。有研究表明,TACE术后使用中药治疗,能够降低术后不良反应,改善免疫功能,提高临床疗效以