正则回归模型在几类学习框架下的学习理论

来源 :南开大学 | 被引量 : 0次 | 上传用户:jiachengpu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正则回归模型能够较好地克服过拟合问题,在学习理论中是一种具有良好泛化能力的经典机器学习模型。在数据科学急速发展的今天,随着集成学习,多示例学习,深度学习等一系列学习框架的诞生,对正则回归模型在这些学习框架下的性质的研究也变得日益重要。本篇文章主要研究了正则回归模型在分布式学习,分布回归和神经网络这三类学习框架下的理论分析。本文的内容分为六个章节。在第一章我们阐述了研究的背景与动机,介绍了学习理论作为机器学习的理论基础在如今数据科学领域的重要地位,以及其主要包含的学科交叉。同时我们也介绍了机器学习在理论层面的的三大任务:聚类,分类和回归,以及本文所讨论的也是近年来比较主流的学习框架。另外我们也给出了文章的概要。第二章我们引入了本文研究的学习模型——基于最小二乘损失的正则回归模型,并分别给出了HK范数正则,l~2范数正则以及l~1范数正则的经典理论分析,我们分别用传统的概率不等式,积分算子以及假设空间逼近的方法给出了这三种正则模型的学习速率。另外我们也给出了一类基于链条损失函数的经典正则回归模型——支持向量机的简单示例,并证明了其约束优化问题与回归模型的等价关系,从而展示了分类与回归的深层联系。在第三章中我们研究了正则回归模型在分布式学习框架下的学习理论,主要是在分布式学习框架下系数正则回归模型的性质继承以及泛化问题。所谓分布式学习,简单地概括来说就是将整个样本集切分成多个不同的子样本集,在每个子样本集上训练局部模型,我们的最终训练结果由所有局部模型加权求和获得。我们在Yuchen Zhang等人的分布式分治原则的研究基础上提出了系数正则回归的分布式学习算法框架,并通过使用再生核希尔伯特空间的性质以及积分算子差的分解证明了当回归函数满足一定的正则性时,系数正则回归的分布式学习算法框架可以达到最优的学习效率。与Zhengchu Guo等人提出的谱算法框架相比,我们的研究结果放宽了对假设空间的限制,同时当回归函数正则性较强时,我们的算法框架克服了Yuchen Zhang等人研究中出现的饱和影响。从而我们的研究证明了了系数正则在分布式学习框架下具有良好的泛化性,仍然能够在克服饱和影响的基础上达到最优的学习速率。同时我们也提出了在数学理论分析层面,分布式学习算法与分布回归问题二者的相似关系,为我们之后的研究确立了新的方向。另外我们也研究了一类具有通讯设置的分布式学习算法,这种学习算法通过传递梯度达到了子学习机器间信息交流的目的,同时也保证了数据的隐私性与安全性,是现在分布式学习在工程实践中最主要的应用模式。我们通过分析迭代算法给出了其学习速率,并阐述了其对我们在分布式学习方向的研究启发。在第四章中我们研究了分布回归问题,分布回归问题作为多示例学习的理论基础,主要研究的是以概率测度为输入的回归问题。一方面我们研究了分布回归问题对非独立采样的稳定性,我们放宽了以往分布回归研究中独立采样的限制,并通过使用强混合序列的性质以及特殊的协方差不等式证明了当采样点满足强混合条件时,分布回归问题仍然能够达到最优的学习效率。从而将Zhiying Fang等人有关于分布回归学习率的结果推广到了非独立采样情况,拓宽了分布回归问题的应用范围。另一方面我们利用再生核希尔伯特空间性质以及积分算子的技巧证明了l~2系数正则的分布回归问题同样可以达到最优的学习效率,我们的结果克服了Zoltan Szabo等人的研究中出现的饱和影响。在第五章我们给出了积分型神经网络离散化的理论分析,这也是我们当下的主要研究方向。在这一章我们介绍了Taiji Suzuki在神经网络压缩方面的主要工作,并使用l~2系数正则回归模型的收敛速率分析得到了离散神经网络的逼近速率,同时我们通过Schmidt-Hieber提出的复杂度分析结果直接得到了离散神经网络的学习泛化误差。在最后我们详细介绍了对神经网络压缩问题的一些思考,以及对使用正则回归模型改善压缩效果的科研展望。在第六章我们则给出了本文的总结。
其他文献
滑坡和泥石流是我国山区的两种常见地质灾害,是制约当地经济发展的最主要因素之一。滑坡与泥石流关系密切,通常滑坡(尤其是大型滑坡碎屑流事件)发生后会形成大量松散碎屑堆积于坡面或沟道中,这将在很大程度上提高该区域后续泥石流发生的倾向性。目前,既有关于滑坡产生的松散堆积碎屑转化为泥石流方面的问题已取得若干重要进展,但也还存在一些关键问题有待进一步的研究与探讨。例如,缺乏对松散堆积碎屑的成浆潜势及浆体维持能
学位
模块化多电平换流器(Modular multilevel converter,MMC)柔直输电技术以其独特的优势,成为解决大规模新能源并网、直流配电网和远距离大容量输电的有效途径。MMC直流输电系统的故障机理和故障发展与交流系统差异较大,为此,本文主要分析不同接地方式下阀侧接地故障特性及对线路保护的影响,分别提出能够排除阀侧故障干扰的伪双极系统与真双极环网系统的线路保护方法,主要研究内容如下:1.
学位
毒品问题是全球性问题,也是世界性难题。在中国云南省,每一个州市都设有强制隔离戒毒所,而且每个戒毒所都处于高饱和状态,对毒品戒断期的问题进行深入探讨意义重大。甲基苯丙胺(Methamphetamine,METH)是世界范围内使用人数最多的一种强效中枢神经系统兴奋剂,长期使用METH和METH戒断均会导致物质依赖综合征,表现为一系列严重的行为障碍,包括抑郁、焦虑和易怒等情绪障碍,以及难以集中注意力,记
学位
热塑性聚氨酯(TPU)作为一种商业工程弹性体材料,由于其优异的加工性能、良好的耐磨性、高机械性能及良好的化学稳定性被广泛应用于涂装材料、电线电缆、胶粘剂等诸多领域。然而,与其它聚合物类似,TPU的火灾危险限制了其在某些特定场所的进一步应用。因此,开发兼具优异阻燃性能和良好机械性能的TPU复合材料具有重要的科学意义和实际应用价值。本文基于MXene的物化特性,采用不同的无机磷和有机磷通过共价键、非共
学位
为了适应现代工业技术蓬勃发展的需求,铜(Copper,简称Cu)材料需在保证良好导电导热的基础上,有较高的强度。因此,通过在Cu基体中引入合适的增强体,充分发挥基体与强化相的协同作用,制备高综合性能Cu基复合材料成为了研究热点。具有众多优异物理和力学性能的碳纳米管(Carbon nanotube,简称CNT)和石墨烯(Graphene,简称GR),是Cu基复合材料的理想增强体。然而由于CNT、GR
学位
贪婪逼近是函数逼近论的重要研究领域之一,重标贪婪算法是近年来出现的新的贪婪逼近算法,这类贪婪算法在求解凸优化问题中有重要作用.全文将深入研究m-项逼近的重标贪婪算法的性能,在这里我们对性能的分析主要包括三个方面:一方面是研究该类贪婪算法的收敛性.另一方面是估计该类贪婪算法的收敛阶,这分为两种情形考虑,一种是估计该类贪婪算法在Banach空间中的收敛阶,另一种是估计该类贪婪算法在某些稀疏元素类上的收
学位
锡为我国战略金属,主要应用于焊锡、锡化工制品和镀锡板三个传统领域,在催化、传感、光电、能源存储材料等高精尖领域也有广泛应用。锡是我国优势资源,但随着锡矿的不断开采,易选优质锡矿资源逐年减少,“贫、细、杂”特点的难处理锡矿资源成为锡的重要来源。浮选是解决复杂矿产资源高效利用最重要的方法,微细粒锡石浮选也是锡选矿中的研究热点。通过研究和实践发现,在浮选过程中三价铁离子仅在低浓度且较窄的浓度范围具有活化
学位
哺乳动物早期胚胎发育,尤其是围着床期到原肠胚形成,经历了多个层次的细胞命运决定,是整个胚胎发育过程中的关键事件之一。胚胎着床到原肠胚形成过程需要将谱系祖细胞特化和组织到胚体发育中,任何发育上的错乱都会影响个体发育,并产生深远影响。了解人类植入后早期胚胎发育的机制对基础发育生物学和再生医学都有着重要意义。虽然以小鼠为研究模型,已有多篇研究成果揭示了啮齿类动物原肠胚形成的分子机制。但小鼠和灵长类动物之
学位
铜绿假单胞菌是一种分布广泛的人类条件致病菌,能够适应包括宿主环境在内的多种环境。有效感知宿主环境并相应调整全局基因表达的能力对铜绿假单胞菌感染至关重要。细菌可以响应宿主体温触发其毒力基因表达,增强感染过程。在感染过程中,细菌必须能够有效利用宿主体内的能源物质实现长期定殖,然而,对于铜绿假单胞菌对宿主温度以及特定环境下能源物质的反应机制还知之甚少。冷激蛋白家族是细菌内保守的调控基因表达的RNA结合蛋
学位
大气中氮氧化物(NOx)以及重金属汞(Hg~0)的存在会引起一系列的人类健康以及环境问题,因而受到了世界各国的密切关注。其中煤炭燃烧是大气中氮氧化物和重金属汞的主要来源之一。根据我国能源体系现状,煤炭在未来很长一段时间内依然是我国使用最广泛的能源,因此如何降低煤炭燃烧产生的氮氧化物和重金属汞就成为了人们重点关注的问题。基于目前的脱硝除汞技术,催化氧化法是一种高效且具有广泛应用前景的技术之一,它是在
学位