连续比率模型的变量选择及其应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wbgbg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有序分类数据,即响应变量为有序多分类变量的数据在医学和组织学中非常常见。随着DNA技术的发展,越来越多的医学研究着手于探索疾病与患者基因表达之间的关系,而基因表达数据通常都是超高维(即p>>n)的。传统的解决有序分类问题的统计方法全部要求解释变量的维度p要小于样本容量n,因此它们在高维情况下并不适用。为了解决高维情况下的有序分类问题,本文基于一般的连续比率模型,并且考虑了模型中同一变量在不同类别上的系数的组效应,将模型中同一变量在不同类别上的系数看作一组,在连续比率模型中加入可以对组变量进行双层压缩的1-norm MCP惩罚函数,提出了1-norm MCP惩罚的连续比率模型。为了检验模型效果,本文首先进行数值模拟将1-norm MCP惩罚的连续比率模型的模型结果与L1惩罚的约束连续比率模型和L1惩罚的连续比率模型的模型结果进行对比。在模拟中,本文考虑了两种模型系数结构,并且考虑到了样本量和解释变量相关关系对模型结果可能产生的影响。模拟结果表明,本文所提出的1-norm MCP惩罚的连续比率模型在变量选择和分类上的效果明显优于L1惩罚的约束连续比率模型和L1惩罚的连续比率模型,这说明考虑连续比率模型中同一变量在不同类别上的系数的组效应,将同一变量在不同类别上的系数看作一组,并对整组系数同时进行压缩和估计可以有效的提高模型的变量选择和分类效果。另外,本文将1-norm MCP惩罚的连续比率模型应用到了借贷违约预测数据以及前列腺癌分期和肠病诊断研究的基因表达数据的分析上,分析结果表明1-norm MCP惩罚的连续比率模型可以有效的选择出与响应变量有关联的重要变量,并且有着较好的分类预测能力。
其他文献
对二甲苯(PX)是重要的芳烃类化工产品,通过对其生产过程关键组分的实时在线检测,可以指导现场操作,从而确保产品质量,并提高工厂的经济效益。作为一种分子光谱检测技术,拉曼
早在2013年,百度公司就针对奇虎公司利用插件屏蔽百度浏览器的广告而起诉奇虎公司不正当竞争,并获得法院的支持,互联网竞争者之间的硝烟暂告一段落。2017年12月首例网络比价插件:淘宝网诉“帮5淘”购物插件不正当竞争案二审宣判后,说明了网络购物领域的“技术之战”已经拉开序幕。互联网覆盖了生活的各个方面,每个行业都可能产生网络不正当竞争,而他们的共同点是:都是通过网络插件这一技术手段来实现的,但并不是
近年来,提拉镀膜法凭借其工艺操作简单,可选基材形状多样等优势,逐渐应用于电子、环保、装饰等诸多领域。现代膜材料工业对膜材料的功能性不断提高,同时也对提拉镀膜工艺提出
电话连线记者:为延伸监督触角,很多纪检监察机关向村级组织派出了廉情信息员、监督员等,但由于管理体系不健全、责任不明确等原因,作用发挥有限。石棉县纪委监委在贫困村试点
鸡白痢沙门菌(Salmonella pullorum)是一种常见的禽类病原菌,可引起雏鸡关节炎、腹泻和食欲不振等一些急性系统性疾病,可以通过鸡胚垂直传播,还会通过粪便和饮用水经消化道和呼吸道水平传播。感染鸡白痢沙门菌会导致鸡的生产性能下降,明显降低种蛋孵化率,或引起鸡群的大规模发病和死亡,严重影响畜禽健康,造成重大经济损失。沙门菌是我国农业部要求重点监测的14种动物疫病病原菌之一,所有种畜禽场必须
近年来,由于快速发展的通讯技术以及持续增长的通信业务,短缺的频谱资源已经很难满足各种应用场景,在这样的背景下,具有螺旋状相位波前的轨道角动量电磁波由于潜在的信道复用能力逐渐引起国内外学者的关注。利用携带不同模式的OAM波束之间的正交性,可以在确定频率上对OAM波束进行调制,实现多路信号的同时传输,从而提高系统的频谱利用率和信道容量,为无线电频带拥塞问题提供一种新的解决方案。轨道角动量天线是发射和接
禽流感是由甲型流感病毒引起的人畜共患疾病,近年来甲型流感病毒的阶段性爆发,造成了人类伤亡的同时也重创了家禽养殖业。甲型流感病毒属正粘病毒科,是含8个节段基因组的负链
近年来,随着自由基化学学科的快速发展,大量的化学科研工作者投身于研究自由基的产生以及在有机合成中的应用。并且,许多知名的科研工作者依靠自由基在有机合成中的应用发表
羊传染性脓疱(Contagious ecthyma,CE),也称为“羊口疮”(Orf),是由羊传染性脓疱病毒(Orf virus,ORFV)引起绵羊、山羊感染为主的一种急性、高度接触性的人兽共患传染病。该病主要临床特征是在唇部、口腔、舌黏膜、上颚、鼻腔、蹄甲、外阴等部位形成丘疹、水泡、脓疱、溃疡以及结痂。ORFV主要感染山羊和绵羊,其中羔羊最为易感。作为痘病毒科成员之一,ORFV基因组庞大,由位于
面板数据作为将截面数据和时间序列数据综合起来的二维数据类型,能提供更多的样本信息,在经济学、管理学、生物学等诸多领域有着广泛的应用。传统的面板数据模型实际上是一种条件均值模型,这种模型只能描述因变量的均值信息,而忽略了其它信息。分位数回归方法考虑了在不同分位点处自变量对因变量的影响,与传统的条件均值模型相比,不仅具有较好的稳健性,而且能够度量自变量对因变量尾部的影响,提供更加丰富的信息。因此,越来