【摘 要】
:
“样本独立同分布”是经典统计学习理论的重要假设.但这一假设过于严格,在很多实际的机器学习问题中,样本是非独立的.因此从上个世纪90年代开始,很多专家学者就开始研究样本非独立时的学习理论问题.负相伴(Negative Association,NA)相依变量就是非独立随机变量的一种,负相伴相依变量的概念由Joag-Dev和Proschan在1983年提出来,它是一类包含独立变量在内的相依变量,在可靠性
论文部分内容阅读
“样本独立同分布”是经典统计学习理论的重要假设.但这一假设过于严格,在很多实际的机器学习问题中,样本是非独立的.因此从上个世纪90年代开始,很多专家学者就开始研究样本非独立时的学习理论问题.负相伴(Negative Association,NA)相依变量就是非独立随机变量的一种,负相伴相依变量的概念由Joag-Dev和Proschan在1983年提出来,它是一类包含独立变量在内的相依变量,在可靠性理论、多元统计分析、随机过程等学科中有着广泛的应用.并且还被成功的应用到大气分析、图像处理、应用海洋学等领域中.近年来的研究表明,负相伴变量在风险管理,保险精算里中也有着重要的地位.因此负相伴序列上的学习理论问题的研究有着非常重要的理论意义和实用价值.本文研究了NA样本上学习机器的学习速率、算法一致性、推广性等问题.首先,介绍了NA变量的性质、不等式和大数定律,并利用大数定律推导出NA样本上的关键定理,证明了经验风险最小化原则(ERM)在NA样本上是一致的.其次,建立NA变量的Bernstein不等式,通过对过推广误差进行分解,得到了最小二乘正则算法下的较快的学习速率.最后,讨论了NA样本上基于系数正则化回归学习机器的推广性问题,得到了该算法下的最优学习速率,结论表明该算法是可推广的.本文的主要内容和创新之处如下:(1)NA样本上学习理论的关键定理Vapnik和Chervonenkis在1989年给出了样本独立情形时的统计学习理论的关键定理.其核心思想是将学习理论中ERM原则的一致性问题转化为均值一致单边收敛于数学期望的存在性问题.这样对于给定的数据,我们就可以通过判断均值是否一致单边收敛于数学期望来判断ERM原则是否严格一致.本文运用概率论中的相关理论和方法,得到了NA样本上的学习理论的关键定理,证明了在NA样本上ERM原则是一致的.(2)NA样本上学习过程一致收敛速度的界通过对学习过程一致收敛速度的界的估计,可以得到经验风险与实际风险之间的关系,从而研究学习机器的推广能力.本文考虑了损失函数为示性函数时,利用Hoeffding不等式,得到了NA样本上学习过程一致收敛速度的界;在此基础上,利用集中不等式,导出了损失函数为实函数时NA样本上学习过程一致收敛速度的界.(3)NA样本上最小二乘正则化算法的一致性通过对误差进行分解,利用Bernstein不等式,我们得到了基于NA样本的最小二乘正则化算法的推广误差的一个较弱的上界.然后借助迭代技巧,得到了一个更紧的上界,从理论上将算法的学习速率推广到最优情形,证明了算法的一致性.最后,通过仿真实验进一步验证了算法的一致性.(4)NA样本上系数正则化算法的推广性不同于(3)中推广误差的分解,我们将推广误差分解为样本误差,假设误差和逼近误差三部分.然后分别估计这三个部分的上界,得到了NA样本系数正则化算法的推广误差的上界,同时,还建立了基于NA样本系数正则化算法的最优学习速率.在最优学习速率的证明中,没有采用迭代技巧,也没有对样本个数进行约束,过程较(3)更简洁.最后,进行仿真实验,实验结果验证了算法的一致性,表明了基于NA样本的系数正则化算法有很好的推广性.
其他文献
运动发酵单胞菌(Zymomonas mobilis)是一种重要的工业微生物,具有理想的细胞工厂特性,高效的遗传操作技术,如基于CRISPR-Cas(clustered regularly interspaced short palindromic repeats-CRISPR-associated)系统的基因编辑技术,可进一步促进对该菌的研究、改造和应用,该技术因其在微生物菌株工程改造中表现出的快
在自然界中许多节肢动物表现出访花行为,也包括一些蜘蛛种类。然而由于蜘蛛被认为是严格的捕食动物,所以蜘蛛的访花行为常常被人忽视。而且蜘蛛访花的研究也不是很全面,在国内对访花蜘蛛的研究更是一片空白。基于此,本研究首次提出访花蜘蛛这个术语,旨在对访花蜘蛛的主要种类及其多样性有一个初步的了解。此外,访花蜘蛛需要特定的花序来进行狩猎,通常是通过感官线索(如视觉和嗅觉)来进行选择。在这里,我们以蟹蛛科的三突伊
运动发酵单胞菌(Zymomonas mobilis)是一种兼性厌氧革兰氏阴性细菌。作为天然产乙醇菌株,运动发酵单胞菌是目前构建生物燃料及其他生物基平台化合物的底盘细胞之一。但是,目前对运动发酵单胞菌的基因功能和代谢机制等仍缺乏全面的了解,能够应用于运动发酵单胞菌基因工程改造的生物元件如启动子和核糖体结合位点(Ribosomal binding site,RBS)等比较匮乏,且用于筛选鉴定相关生物元
近年来,卷积神经网络在计算机视觉领域取得了一系列突破性的研究成果.但其本身的数学模型还没有得到完善的验证与解释.因此,从理论上分析卷积神经网络数学模型的逼近能力和推广性能具有重要的理论研究价值.本文从本质上分析了深度卷积神经网络优于浅层卷积神经网络的内在机制,并从函数逼近论的视角研究了卷积神经网络的逼近能力和推广性能.理论研究结果表明,卷积神经网络在任意紧子集(?)(?)Rd上的连续函数空间C((
在很长一段时间,缅甸华文文学界都处于一个近乎空白的状态。在90年代初缅华微型小说崛起之时,缅华作家许均铨积极参与其中,相继创作了近200篇微型小说。他的微型小说从缅甸社会、华侨社会中吸收了丰富的生活经验,展现了别具风格的社会风貌。许均铨1986年开始进行小小说创作,1993年他的小小说《表》获得湖北省“补心滋阴杯”三等奖,曾达到一种经典写作的高度。他的小小说展示了平凡人物的日常生活;描述了在社会时
近年来,仿生超疏水材料的特殊表面效应使其在自清洁、油水分离、抗腐蚀、防结冰以及防雾等领域有着广泛的应用。超疏水表面不仅需要在固体材料表面构建具有微纳尺度的粗糙结构,而且材料表面必须有较低的表面能。本论文以自然界中大量存在的天然高分子聚合物——纤维素为基底,在纤维素材料表面进行疏水化改性,使亲水性的纤维素材料转变为疏水性的表面,扩大了纤维素材料的应用范围。本研究将无毒且具有某些特定功能的试剂掺杂于体
氢能是一种燃烧放热高、可循环使用、产物无污染的绿色能源,已经成为世界能源结构的重要组成部分。鉴于氢气分子小、容易泄露且易燃易爆的特点,利用氢气传感器对氢气泄露进行监测对保障安全产氢、用氢具有重要意义。基于半导体氧化物材料的电学型氢气传感器具有高灵敏度、稳定性好且成本低廉等优势,在氢气安全检测中具有很大的潜在应用价值。然而,现有商业化半导体氢气传感器大多需要在高温下工作,带来了较大的功耗和一定的安全
核酸检测是分子诊断的主要手段之一,在卫生保健、环境监测、生物安全以及食品分析等许多领域发挥了重要的作用,开发操作简单成本低的高灵敏度、高特异性核酸检测技术具有重要意义。近年来,基于CRISPR/Cas(Clustered regularly interspaced short palindromic repeats/CRISPR-associated proteins system)系统发展的一系
加尼觉玛玛礼和丁玲分别是20世纪活跃于缅甸、中国两国具有世界影响力的、有代表性的女性作家。她们虽然生活于缅甸、中国两个不同的国度,但两位作家的创作活动基本处于相同的时代,20世纪20年代到80年代,时间长达半个世纪左右。综合加尼觉玛玛礼和丁玲的生活经历与所处社会环境进行探究,她们一直都在关注女性的生命进程、生存状态、生活环境,揭示女性在特定时代的生活、追求、发展与进步,以及女性本身为各自国家的人民
中国经济已由高速增长阶段转向高质量发展阶段,“生态优先、绿色发展”上升为国家战略,并将在未来很长一段时期成为实现中国经济高质量发展的主要方式和动力。旅游业不仅是国民经济战略性支柱产业,更是践行“两山理论”和满足人民日益增长的美好生活需要的重要载体。近年来,中国旅游经济规模持续扩张,在国民经济中地位不断增强,国家旅游局数据显示,旅游业对国民经济和就业的综合贡献率均已超过10%,综合带动性明显,战略性