L1/L∞范数的算法设计及其应用研究

来源 :南京林业大学 | 被引量 : 1次 | 上传用户:blaze1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于范数定义的度量学习是机器学习、模式识别领域的基础性工作之一。最为常用的是基于L2范数的欧氏距离和马氏距离,因其易于求解(L2范数可微)且符合人类直觉,该范数被广泛应用于模式的相似性度量并据此设计算法,其中较为著名的大间隔学习机有:基于欧式度量的传统支持向量机(Support Vector Machine,SVM),广义特征值求解的近似支持向量机(Proximal Support Vector Machine via Generalized Eigenvalues)和由马氏距离度量的大间隔最近邻分类器(Large Margin Nearest Neighbor,LMNN),最大最小间隔学习机(Maximin Margin Machine,M~4),最大最小概率学习机(Minimax Probability Machine,MPM)等。然而,采用L2范数度量的学习机,存在两个主要问题:1)L2范数的不鲁棒性(为方便模型求解,人们多采用范数平方取代模型中的平方根项,这无疑会放大噪声样本的影响);2)高阶优化问题(也是因为平方操作,使得问题的求解规模至少是二次规划)。相对于L2范数,L1和L∞更为鲁棒且导出的问题多是线性规划;但由于众所周知的不可导性,无法通过如L2范数的梯度方法来获得点到平面的解析表达式,无法解析描述间隔,其应用不可避免地受到限制。本文针对以上不可导范数,从监督信息利用角度,进行了全监督、无监督和半监督的算法设计,主要工作如下:1.提出了无穷范数大间隔分类器Inf SVM。首先,注意到无穷范数不可导的事实,放弃经典的梯度和次梯度方法,从范数对偶角度导出了无穷范数的点到平面距离公式和投影公式。其次,基于点到平面公式导出无穷范数的间隔,恰可通过该范数的对偶来刻画。通过最大化间隔,并同时最小化经验误差,设计了Inf SVM,导出的问题可通过线性规划求解。它具有如下特点:(1)继承了SVM几何解释;(2)只需要求解一个线性规划,训练时间更短;(3)比SVM更为鲁棒;(4)在人工和UCI数据集上实验,验证了其分类精度达到甚至超过SVM。2.提出了无监督的L1k PC聚类算法。针对经典的L2范数k PC(k-Plane Clustering),提出了目标和约束同是L1范数的L1k PC算法。该方法的优势在于:1)相对于现有的拟k PC聚类算法(为利用簇间信息,用SVM的不等式约束取代k PC的L2范数约束)几何解释不清晰问题,L1k PC与k PC的一样,几何解释明确;2)提出了目标和约束均为L1范数的优化方法,即将非凸优化问题按L1凸壳划分为多个凸的子问题,每个子问题均可通过线性规划求解,避免了现有的高阶优化问题,如二次规划、特征方程、线性方程组等。据我们所知,该求解方法是首次提出;3)在人工数据集、UCI和人脸数据库上,实验验证了该方法在聚类能力、训练时间、鲁棒性方面的性能。3.提出了半监督聚类算法Semi-L1k PC。利用少量的有标样本和大量无标记样本且兼顾平面聚类的平面原型(Plane-Prototype)特点,在工作2的基础上,设计了半监督聚类算法Semi-L1k PC。从每类仅有一个已标样本出发,在人工数据集和UCI数据集上的实验表明:(1)在XOR(Exclusive OR)问题上,平面型的聚类方法的聚类准确率均显著高于k-means算法,因为k-means是以点为原型的聚类方法,其不适合平面分布型的数据集;(2)在少量监督信息引入后,半监督型聚类方法semi-k PC和semi-L1k PC比其他聚类方法的聚类准确率更高;(3)采用L1范数的semi-L1k PC比semi-k PC的鲁棒性更好.4.针对林火识别中的不平衡分类问题,提出了L1BSVM(L1 norm Biased SVM)算法。有别于其它分类方法,森林火灾早期预警系统中,期望能够在着火面积尽可能小的时候,就能够将图像中的火焰区域识别出来。此外,由于真实系统中的数据采集和数据传输均在野外,待处理数据不可避免存在噪声。针对这种含噪且极端不平衡的图像数据,利用多个颜色空间信息,在工作1的基础上,设计了Imbalanced Inf SVM算法。实验效果表明:(1)在大多数林火数据集上,Inf SVM的训练时间短且测试精度高;(2)在林火数据集的正负比例达到高度不平衡(如1:50以上)时,提出的L1BSVM算法能获得最高的林火识别率。
其他文献
随着经济技术的不断发展和人类生活水平的提高,人类面临的疾病问题也不断增加,其中以脑卒中疾病最为明显。虽然医学技术在不断进步,脑卒中患者的存活率在上升,但由脑卒中引起
本文对我国创业板上市公司在2015-2019年作为案例的背景,通过分析发现上市公司变更的数量比较多、涉及的资金比较大。本文在案例分析部分,统计了创业板市场上市公司变更资金
得益于V2X和传感器技术的快速发展,车辆的状态可以被准确地测量,并统一地被存储在云端。这些状态可以看作是一个无限属性的集合,例如车辆周围的车辆密度,信号强度等。所以车
随着我国经济的快速增长和现代化进程的加快,水库、湖泊等地表水已经成为绝大多数城市的主要饮用水水源,内源污染是目前大多数水库亟需解决的水质问题之一。水库水温分层是内
目前国内外越来越多的老旧建筑结构存在不同程度的安全隐患,采取及时有效的加固改造措施显得十分必要。近年来随着新材料、新技术在加固领域的广泛应用,我国混凝土加固改造技
声音事件检测是对一段音频检测包含的声音事件和发生位置的技术,声音事件分类则只需获得事件类别信息。这一技术是获取周围环境信息不可缺少的手段,特别在某些特定环境,例如
随着大数据与人工智能技术应用的发展,图像分割已成为计算机视觉研究的主要方向,并成功应用于医学、安防等多个领域。以机器学习为基础发展出了一系列图像分割算法,并在理论
为了解句容水库农业小流域水体中温室气体浓度与通量的时空变化特征,于2015年10月至2017年9月进行两年的流域水样采集,采用顶空平衡-气相色谱仪法计算水体中温室气体浓度与通
夹卷是大气边界层与自由大气进行能量和物质交换的重要途径,对边界层动力结构及边界层内温度、水汽和各种污染物浓度具有重要影响。本文采用香港地区2002-2016年臭氧探空资料
随着人类探索和开发太空资源需求的日益增加,航天任务正朝着多样化和复杂化的方向发展。航天器交会作为各种航天任务,如型空间结构的组装、空间碎片清理、航天器在轨服务以及