非凸惩罚回归的路径算法及其应用

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:jiayin228699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高维数据情况下,传统的线性回归模型的参数变得不可估计,变量选择是解决此类问题的一个很好的方法。在稀疏情况下,能够从众多解释变量中筛选出关键的变量显得更为重要,这不仅增强了模型的解释能力,也减低了模型的复杂度。在很多领域数据都存在高维稀疏的情况,特别是生物医学中的基因表达数据,高维数据下的回归方法和变量选择方法在该领域得到了广泛的研究和应用。在高维数据问题上,经典的变量选择方法如最优子集选择、前向回归法和逐步回归法等不再易行,而基于惩罚思想的正则化方法通过将系数收缩到零可以实现变量选择,同时得到系数估计。在正则化方法中,LASSO(Least absolute shrinkage and selection operator)方法是最经典的正则化变量选择方法,在大样本下,它并不满足Oracle性质,参数估计是有偏的;而基于非凸惩罚的SCAD(smoothly clipped absolute deviation)和MCP(minimax concave penalty)的回归模型均具有Oracle性质。但是,LASSO惩罚是凸函数,基于LASSO惩罚的模型易于求解且效率较高,而SCAD、MCP是非凸惩罚函数,在求解算法上存在一定的难度,其计算效率低下也影响了模型的推广使用。于是,针对在求解基于SCAD、MCP非凸惩罚回归存在的问题,本文的研究目标是:提出施加SCAD、MCP非凸惩罚的广义线性模型的选择算法,并给出普通线性模型和逻辑回归模型的路径求解算法,更加高效地进行系数估计和变量选择。尽管MCP、SCAD罚函数是非凸函数,但是在调节参数满足一定条件时,目标函数在一定区域内也为凸函数,于是本文借鉴最小角度回归的思想将LASSO中选择的方法推广到基于MCP和SCAD非凸惩罚的广义线性模型。首先,本文提出了基于非凸惩罚的广义线性模型的选择算法,即通过在目标函数为凸函数的区域内找到恰好对应变量集合发生改变的变点,并给出了普通线性模型和逻辑回归模型的路径求解算法。接着,通过设置不同条件的模拟实验,基于BIC准则选择模型,在施加MCP和SCAD惩罚的普通线性模型中,比较了本文提出的算法与坐标下降算法在计算效率、参数估计精度和变量选择效果上的表现;在施加MCP和SCAD惩罚的逻辑回归模型中,比较了本文提出的选择方法与格点法在变量选择效果上的差异。最后,在高维小样本基因表达数据上比较了基于本文提出的选择方法和基于格点法的逻辑回归模型的应用效果,同时也比较了施加LASSO、MCP和SCAD不同惩罚的逻辑回归模型的应用效果。本文的创新点主要有:(1)本文提出了基于MCP、SCAD非凸惩罚的广义线性模型路径中选择超参数的算法,基于此分别给出求解施加MCP、SCAD非凸惩罚的普通线性模型和逻辑回归模型的路径算法,并通过编写代码实现了算法。(2)本文提出的算法在运算效率、参数估计效率和变量选择上具有一定优势。本文得到的主要结论有:第一,在施加MCP和SCAD惩罚的线性回归模型中,基于本文提出的选择算法的估计结果与基于格点法的坐标下降算法估计结果相比,本文算法的计算时间更短、变量选择效果更好、系数估计精度更高。本文提出的算法在更短的时间内,不仅能够选出所有的真实非零变量,而且模型选择的结果更加精简,同时系数估计结果的均方误差更小。第二,在施加MCP和SCAD惩罚的逻辑回归模型中,在变量选择效果上,本文提出的选择算法查准率明显高于格点法,查全率与格点法差异不大,即在保证能够选出绝大部分的真实非零变量的同时,模型选择的结果更为精简。同时,在实际应用发现,在的个数相同的条件下,本文提出的选择方法和格点法相比,模型的预测精度更高,若要提高格点法下的模型精度,则需要增加的个数,从而增加计算量;另外也发现,基于MCP惩罚选择的个数要明显小于SCAD惩罚,MCP惩罚的模型复杂度也要低于SCAD惩罚,且MCP惩罚的模型精度要高于SCAD惩罚。第三,在施加LASSO、MCP和SCAD不同惩罚的逻辑回归模型的实际应用中,基于MCP惩罚的模型复杂度最低,远低于LASSO惩罚,基于SCAD惩罚的模型复杂度次之;基于MCP惩罚的准确率和精确率最高,三者差异相对较小;基于SCAD惩罚的召回率最高,基于MCP惩罚次之,二者均明显高于LASSO惩罚。整体而言,基于MCP惩罚的逻辑回归模型表现最优,不仅具有较低的模型复杂度,而且模型的预测精度也更高,SCAD惩罚其次,LASSO惩罚位于最后。
其他文献
客户细分工作在保持存量客户,发掘潜在用户以及差异化营销方面发挥着重要的作用,不断变化的客群特征要求客户细分需要有较强的时效性,要求管理人员动态调整客群划分,这需要快速和准确的划分策略予以支持。随着数字经济的发展,互联网企业积累了大量的数据资源,应用大数据和机器学习方法开展客户细分及购买倾向预测工作,并取得了显著的效果。但是海量和快速更新的数据,使得静态数据挖掘算法的训练产生了巨大的计算和储存空间开
学位
肺癌作为一种恶性肿瘤,它逐渐侵蚀着人类的身体健康,为人类的生存带来巨大威胁。在我国,其每年导致的发病人数和死亡人数都位列第一,而肺癌中的非小细胞肺癌(Non-small Cell Lung Cancer,NSCLC)的发病率则达到了肺癌总发病数的八成以上。基于非小细胞肺癌驱动基因的靶向药物,由于其疗效可靠、副作用轻微,已成为最受关注的治疗方法之一。在驱动基因中,表皮生长因子受体(Epidermal
学位
多视图数据及高维图像数据的特征提取问题是图像处理中的重要问题。基于子空间投影的图像特征提取方法有着运算代价小、描述能力强等优势,并且广泛应用于多视图图像识别和降维中。因此,论文课题致力于研究现有多视图公共子空间投影方法在子空间学习过程中未能充分利用多视图数据中有效信息的问题,以及现有低维子空间学习方法预先学习重构关系的问题,对现有算法进行了改进,以提高对于多视图图像数据以及高维图像数据的特征提取性
学位
当今时代,发展数字经济已经升级为国家战略。我国发展数字经济具备独特优势,但目前各省数字经济发展不平衡的现象依然存在。本文旨在研究中国区域数字经济格局优化与协同发展,测度最新统计分类标准下我国各省数字经济发展变化情况,从社会网络空间的视角研究分析我国各省数字经济联系网络的空间结构、演变趋势及其影响因素,基于空间关联性对区域数字经济空间进行细致划分,并定量分析了中国省域及各区域内数字经济空间关联性的溢
学位
活动识别作为人机交互的重要媒介,在智能家居、医疗看护等生活领域被广泛研究。由于无线感知领域中基于Wi-Fi信道状态信息(Channel State Information,CSI)的活动识别技术弥补了视频监控技术易侵犯人隐私和穿戴式设备需实时佩戴的缺点,近年来在被动式活动识别领域飞速发展。但基于Wi-Fi CSI的活动识别方案在更换场景和增加新用户后,存在识别精度不佳的问题。这是由于缺乏足够的新环
学位
财政作为政府的重要政策工具,在我国经济建设与发展的过程中发挥着至关重要的作用。2015年,出于经济形势考虑,中国选择实行“有力度的积极财政政策”,以实现宏观经济稳定目标。2020年,积极的财政政策在国家抗击疫情、风险防控的过程中发挥了重要作用。在财政地位提升的同时,我国各类财政风险也在逐渐凸显。为了防范化解各类公共风险,从而降低系统性公共风险、避免全局性公共危机、维持整个经济社会的稳定,适时适度地
学位
读图时代带来了图符信息过载问题,推荐系统能够有效地缓解信息过载,为用户提供个性化的推荐服务。推荐算法是推荐系统的灵魂,协同过滤算法是目前应用最为有效且经典的推荐算法之一,但仍然面临着用户-项目数据稀疏问题、冷启动问题、用户兴趣变化问题。针对协同过滤算法存在的上述问题以及进行图符推荐应用的需要,本文对协同过滤算法及其在图符推荐系统中的应用进行了研究,主要研究内容如下:1.针对用户数据稀疏问题以及未能
学位
数字化技术在文物保护领域占有关键地位。传统的数字化技术主要利用三维激光扫描对文物表面建模,无法得知文物内部的结构、材质以及缺损信息等。计算机断层成像(Computed Tomography,CT)技术凭借其高精度、无损检测物体内部构造等优点,逐渐被文物数字化保护领域采用。重建算法是CT技术的核心,代数重建算法(Algebraic Reconstruction Techniques,ART)作为典型
学位
灰度图像彩色化技术一直是国内外学者研究的重要课题,将彩色化技术应用于兵马俑图像的色彩复原中具有一定的科学价值和历史意义。现有的兵马俑色彩复原方法大多是基于传统算法进行处理,色彩复原准确率较低,且传统算法对于处理低分辨率图像效果很差。针对上述问题本文基于生成对抗网络,对兵马俑全自动着色算法进行了研究。主要研究进展包括:(1)彩色兵马俑数据集建立。目前还没有可用的彩色兵马俑数据集。我们通过各种途径收集
学位
近年来,深度强化学习(Deep Reinforce Learning,DRL)作为一种强大的自我学习技术,被广泛应用到编译器优化任务上,以支持代码在复杂的多核异构平台下运行性能的提升。但是,面对具有庞大搜索空间的优化任务,利用DRL进行搜索依旧面临挑战,一方面庞大搜索空间中包含大量冗余以及无价值的搜索路径,另一方面如果要部署DRL框架开展自动调优工作,仍然需要编译专家耗费较长时间来选择目标任务所对
学位