线性约束高维模型的稳健变量选择和异分布条件下的分类方法

来源 :山东大学 | 被引量 : 1次 | 上传用户:yellowuncle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变量选择和分类问题是统计分析和机器学习的热点,二者广泛应用于诸多科学研究和应用领域,诸如医学诊断,基因组研究,金融风险和无线通信等.高维模型通常假设具有稀疏性,即只有少数预测变量对于响应变量有影响.变量选择旨在选择出重要的预测变量,并对相应的系数进行估计.分类方法是根据已知类别的历史数据建立分类准则,用此对新的观测值进行分类.尽管现如今存在许多变量选择和分类的方法,但它们对于具有厚尾误差,异常值和异分布的数据并不适用或者无效.此外,在实际应用中可能存在关于响应变量和预测变量之间关系的假设条件或者专业信息,可以利用这些先验知识对回归参数进行约束.本论文研究了两类问题,一是针对厚尾分布数据的带有参数线性约束的稳健变量选择;二是当一个类别中数据异分布时的分类问题.论文内容共分为五个章节:第一章简单介绍一些基础知识,包括常用的变量选择方法Lasso及其变型,自由度,分位数回归,Huber回归和经典的分类方法.第二章和第三章讨论带有线性约束高维模型的稳健变量选择.其中,第二章介绍了线性约束的广义l1-惩罚分位数回归,第三章提出了线性约束的Huber正则化回归.第四章研究了异分布数据的最小模糊度分类方法.第五章对全文进行总结并讨论需要进一步研究的问题.下面我们对论文的主要部分进行简要介绍.第二章:本章研究带参数约束的高维模型惩罚分位数回归.分位数回归(QR)估计响应变量关于预测变量的条件分位数函数,能够更加全面地刻画响应变量与预测变量之间的关系.分位数损失函数对数据不敏感,因此,惩罚的分位数回归比Lasso更加稳健.在一些实际应用中,可以根据先验知识对回归参数进行线性等式或不等式的约束,从而提高变量选择和估计的效果.Lasso问题中带线性约束的例子包括:递归神经网络(Xia and Wang,2005),投资组合(Fan et al.,2012),形状约束的非参数回归(Wang and Ghosh,2012)等.对于样本{(xi,yi),i=1,...,n},其中xi ∈ 是预测向量,yi∈R是响应变量,我们提出带有线性约束的惩罚分位数回归,即如下的优化问题,其中ρτ(·)是分位数损失函数,λ≥0是调和参数,‖·‖1是向量的l1-范数,D∈Rm×p,∈ Rq×p,D∈ Rq,E∈Rs×p,f∈ Rs是根据实际应用中的假设或专业知识而选定的常数矩阵或者向量.通过选择合适的矩阵D使得Lasso(Tibshirani,1999),Fused Lasso(Zou,2005)和适应性Lasso(Zou,2006)成为上述问题的特殊情况.我们描述了优化问题的Karush-Kuhn-Tucker(KKT)条件,并定义如下指标集合:ε={i:yi-α-βTxi=0},A.={k:Dkβ=0},B={j:Cjβ=dj}.显而易见,解α和β的取值依赖于λ的取值.我们可以证明存在一些转折点λk,使得解的取值在这些点处发生跳跃,而在任意两个转折点之间是常数.我们给出寻找每一个转折点和任意两个转折点之间解的方法,从而得到整个解路径{(α(λ),β(λ)),0 ≤ λ ≤ ∞}.根据Stein引理,得到拟合值μ=xβ+α的自由度公式df(μ)=E(|ε|).利用上述自由度的表达式,我们构造了两个模型选择准则SIC和GACV,用来选择最优的λ.模拟研究以及实际数据分析说明了我们所提出算法和自由度的有效性.第三章:在各个科学领域和实际应用中,经常会遇到厚尾分布和有异常值的数据,在这种情况下,普通的最小二乘估计失效.此外,当数据的分布非对称时,分位数回归不能得到均值回归函数.为了克服这个问题,Huber(1981)提出了一种稳健的损失函数来估计均值函数,它对于较小的值采用二次函数,对于较大的值采用绝对值函数.利用Huber损失函数,我们考虑高维模型中带参数线性约束的Huber正则化回归,其设置如下:其中,HM(·)是Huber损失函数,λ,D,C,E,d,f的含义与问题(1)相同.在高维模型中选择合适的调和参数λ至关重要,需要利用自由度的公式构造模型选择准则来选择λ.据我们所知,目前还没有关于正则化的Huber回归模型自由度的研究.利用绝对值函数的 Moreau-Yosida 正则化(Hiriart-Urruty and Lemarechal,1991),问题(2)等价于其中,y=(y1,...,yn)T是响应向量,X=(x1T,...,xnT)T是设计矩阵,v=(v1,...,vn)T是和y具有相同维数的变量.定义如下指标集合:V={i:vi≠0,|yi-βTxi|>M},A={k:Dkβ≠0},B={j:Cjβ=dj}.我们推导出优化问题的KKT条件,经过简单的计算可知只有集合Vc中的数据,即残差落在[-M,M]中的观测值直接影响β,而集合V中的数据只通过符号sv影响β.这解释了 Huber回归对于厚尾数据和异常值稳健的原因.根据KKT条件给出拟合值的表达式,进而推导出自由度的公式.记G-A,B=(DTA,-CBT,-ET)T,拟合值μ=Xβ的自由度为df(μ)=E[dim(col(X-vPnull(G-A,B)))],其中Pnull是null(G_A,B)的投影矩阵.模拟试验展示了利用我们推导的自由度构造的模型选择准则与标准的准则表现相近.实际数据说明了当响应变量中存在异常值时Huber惩罚回归的稳健性.第四章:传统的分类方法假设一个类别中的指标变量X服从相同的分布,然而,在许多应用领域例如医学,生物科学,基因表达和金融等都存在异分布的数据.分类问题中数据分布的异质性源于一个类别中的不同情况,例如,患有贫血症的人(一个类别)包括有性传播疾病(情况1)和没有性传播疾病(情况2)的人.由于性传播疾病可以影响一个人的身体状况,它会导致一个类别中的X服从不同的分布.Lei(2015)提出具有最小模糊度的分类问题,利用两个类别数据的似然比构造分类器和阈值.而在一个类别中数据异分布的情况下,不存在唯一确定的两个类别的似然比.我们在本章克服了这个困难,将Lei(2015)的方法推广到一个类别中数据异分布的情况.方便起见,假设一个类别中存在两种情况,记作G1和G2.一个类别中每种情况的分类错误率αkj,k-1,2,j=0,1由用户指定.记两个类别的分类区域为C0和C1.我们的目标是在一个类别中每种情况分类准确性的约束下,最小化分类模糊度P(C0∩C1).我们提出了一个两阶段方法来解决新的分类问题.首先,利用Lei(2015)的方法得到每一种情况Gk下分类的阈值tk0,tk1,k=1,2,因为在固定的一种情况下,每个类别中的X是同分布的.然后选择新的分类问题的阈值t0和t1为t0=t10(α10)V t20(α20),t1=t11(α11)八t21(α21).为了充分利用所有信息,分类器η(x)由两个类别所有情况下的数据似然比构造,即η(x)=f1(x)/fo(x),fj是给定Y=j时X的条件密度.构造如下分类区域:C0={x:η(x)≤t0}和 C1={x:η(x)≥t1}我们证明了上述分类区域的分类准确率大于事先给定的每种情况下准确率的加权和,即Pj(Cj)>π1j(1-α1j)+7T2j(1-α2j),对于 j=0,1其中πkj=P{x ∈ Gk|Y=j},Pj是给定Y=j时X的条件分布.于是,在一个类别中数据异分布的情况下,我们提出的方法可以保证每个类别的分类准确率,并且具有最小的分类模糊度.我们利用非参数核方法来估计未知的密度函数,进而估计阈值和分类器,并给出分类准确率的估计值Pj(Cj)与真实值Pj(Cj)之间误差的边界.一些模拟试验和AIDs数据的应用验证了所提出的分类方法的有效性.
其他文献
目的探讨抑制miR-210的表达对鼻咽癌放射抵抗细胞(CNE-2R)敏感性的影响。方法对人鼻咽癌细胞株(CNE-2)进行不同梯度的X射线反复辐射诱导,建立CNE-2R细胞株;用双向凝胶电泳结
根据DNVGL规范要求,采用有限元方法对B型独立舱结构进行屈服和屈曲强度的校核。根据计算结果,对不满足规范要求的独立舱水平桁肘板趾端区域、靠近支撑装置、止摇装置和止泻装
随着城市的迅速发展,其发展过程中的各种问题都显现出来,其中较为制约其发展的一个问题就是环境问题,其问题的主要体现就是随着交通的发达程度提高,尾气的排放量增加,工厂的
以潮州港华北片LNG气化站工程场地为例,探索了"网格化"、垂直目标断层测线布置下的各测点氡气、汞气含量等值线图区分场地断层气异常"真"、"假"方法。以等值线图中各测线上异常测点
1引言多台变压器加自备发电机多路电源供电的低压配电系统,采用单母线分段运行,联络开关联络互为备用,既可以提高供电的可靠性,又可避免并列运行时对短路保护电器分断能力及
从短指软珊瑚Sinularia sp.内生真菌Ta31-2的代谢产物中分离得到10个化合物,利用波谱技术确定其结构分别为硬脂酸(1)、软脂酸(2)、肉豆蔻酸(3)、癸酸甲酯(4)、麦角甾醇(5)、fusanolide
在日复一日的单调生活中,无人相伴、缺少关爱的老人很容易产生孤独寂寞感,这样的老人非常渴望到人群里生活,购买保健品就是一个契机,在一个小集体里,老人很容易就会产生从众
行政服务中心内部交通空间设计是关键环节之一,应给予更多重视。以行政服务中心内部行为心理特点作为切入点,从行政服务中心内部交通空间设计原则、总体架构、标志物、部门与
港口是一个国家和所在地区的重要经济资源,对于城市经济的发展和区域经济的发展,起着举足轻重的作用。世界各国都在不遗余力地发展港口,但港口的发展离不开企业战略的选择。茂名
针对薄壁盖类零件的加工难点,确定零件的工艺路线,通过对冲压坯料的二次加工,制造一个能够达到要求的定位基准,再以随机精车的软爪夹具,配合定位基准加工出合格的螺纹,基本消