融合全局和局部信息的度量学习方法研究

被引量 : 0次 | 上传用户:wnan100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
度量学习(Metric Learning)在机器学习中是一个非常重要的基础性命题。距离函数度量了不同样本点之间的相似性,因此,距离函数显著地影响着大部分机器学习算法的性能,如k-近邻分类、径向基函数网络分类、支持向量机分类以及κ-means聚类等方法。由于线性度量学习的高效性和可扩展性(通过核方法可扩展为非线性度量方法),现今的研究重点放在了线性度量(马氏距离)学习问题上。为了提升分类性能并且适应多峰分布的数据集,将全局信息和局部信息融合在马氏距离学习中是一个非常有价值而且具有挑战性的课题。同时随着互联网和信息行业的快速发展,人们面临对海量数据的挖掘和应用,高效性也是度量学习亟待解决的问题。本篇论文针对度量学习中的两个问题:1)通过不引入平衡权重的方式实现全局和局部信息融合;2)降低运算复杂度,进行了系统性的研究,取得了下面三个阶段性研究成果。第一阶段:基于识别坍塌的全局和局部保持映射最大坍塌的度量学习(Maximally Collapsing Metric Learning,MCML)[5]是一种广泛应用的马氏度量学习算法,旨在将所有相同标签的数据点通过学习到的度量矩阵坍塌在一起。针对MCML中数据局部信息的丢失,本部分提出一个度量学习算法将最大坍塌的思想、局部保持的思想和分类识别能力统一在一起,从而有效地将全局信息和局部信息融合在学习到的马氏距离中而不需要引入平衡权重。更重要的是,该提出的度量学习算法是一个凸问题,可以通过一个一阶梯度下降法求解而避免陷入局部极值。为了进一步的降低运算时间,本部分将算法中一些计算密集的步骤映射到了并行平台图像处理器(graphics processor units. GPUs)上。基准数据集上的分类和可视化结果验证了提出算法的可靠性和有效性。第二阶段:基于相关性最大化的度量学习第一阶段提出的度量学习算法虽然能够有效地融合全局信息和局部信息,但是它的目标函数比较复杂,求导的运算复杂度比较高。因此,在第二个阶段我们提出了一个基于统计的马氏学习框架,称为“基于相关性最大化的度量学习”。本部分的贡献包括:·有效地将全局信息和局部信息融合在马氏距离中而不需要引入平衡权重。·区别于经典的相关性衡量标准,例如互信息(Mutual Information)和皮尔森卡方检定(Pearson’s X2test),本部分采用了在再生核希尔伯特空间(reproducing kernel Hilbert spaces, RKHSs)计算的衡量标准,从而不需要对数据的分布进行估计或者假设。·在这个度量学习框架下,通过采用不同的基于核的准则,提出了两种具体的学习算法。这两种算法都属于凸优化问题,而且目标函数的求导运算复杂度很低,可以通过一个一阶梯度下降法有效求解。在基准数据集下的分类、可视化和检索实验结果证明了两种算法的有效性和不同的适用范围。第三阶段:基于信息几何的度量学习方法前两个阶段提出的度量学习算法虽然都是凸的优化问题,但是都需要通过一个梯度下降法迭代求解。不同于现今存在的大部分度量学习算法,信息几何度量算法(Information Geometry Metric Learning, IGML)[24]可以找到一个解析解而不需要求解一个半正定规划问题。在第三个阶段,我们根据信息几何理论,提出了两种算法来分别解决IGML的局限性。(1) IGML的时间复杂度是O(d3+nd2),其中n是训练样本个数,d是数据的维度。基于低秩的假设,本部分提出一个度量学习算法EIGML将IGML的运算复杂度降到了O(nd),极大地提升了算法在高维数据集上的性能。(2) IGML不适用于奇异核矩阵,而且丢失了数据的局部信息。本部分提出一个度量学习算法SIGML将IGML扩展到了非奇异核矩阵的情况而且同时融合了数据的局部和全局信息。我们强调提出的两种算法都能找到解析解,可以被高效优化。实验结果验证了这两种算法的有效性。小结:通过以上三个阶段的研究,论文最后提出的基于信息几何的算法SIGML在全局信息和局部信息融合的思想上涵盖了前两个阶段的研究,而且SIGML能够找到解析解从而避免了迭代求解中参数和步长的调整。对于全局信息保持的算法,我们提出的EIGML极大地降低了运算复杂度,使得度量学习算法能够应用于大规模高维数据。
其他文献
随着科技的进步、社会的发展、地区与地区之间甚至国与国之间的竞争逐步地转化为人才的竞争。大力发展人力资源,实施人才强国、科技兴国战略已成为时代的要求。我国地域辽阔,人口众多,预计到2050年人口总数将突破16亿人,不断增加的人口数量为我国加快人力资源开发和利用提供了优越的条件。研究我国人力资源的开发效率和空间溢出效应具有重大现实意义。首先,本文从人力资源的概念、性质和相关的理论入手,对我国人力资源的
糖尿病是由于遗传、机体胰岛素分泌缺陷或其生物学作用障碍引起的以高血糖为特征的全身代谢紊乱性疾病。根据世界卫生组织统计,在2000年全球有糖尿病患者1.71亿,按目前速度增
核糖体失活蛋白家族是一类广泛存在于植物和细菌中的蛋白毒素,从蓖麻中提取的蓖麻毒素是一种蛋白类毒素,与大肠杆菌分泌的志贺样毒素都隶属于核糖体失活蛋白(RIPs)家族,是存在于自
2015年9月20日晚,“2015半度音乐节·阮”在上海市普陀区浅水湾艺术中心圆满落幕。是次音乐节由半度音乐和兴业全球基金联合主办,河北乐海乐器有限公司赞助,二十余名志愿者全
本文介绍广东省乌龙茶区的主栽品种岭头单丛茶,鲜叶采摘标准由采摘中开面至大开面改为采摘小开面至中开面,以及相应的加工技术。广东岭头单丛茶嫩采鲜叶加工技术分为萎凋、摇青
以神华准能污水处理厂为例,介绍在线监测系统的组成和子站工作流程,简述子站各单元运行方式,并对实际运行中存在的问题进行了总结并提出建设。
文章介绍了污水在线监测系统的的基本组成、选型要点和注意事项,具有一定的参考价值。
天津市南开区老城厢2号地项目地下室结构施工阶段,组合环形混凝土水平支撑水平标高与地下结构冲突,设计要求全部基础底板完工并形成换撑后方可拆撑。文章研究在增设少量混凝
我国电子不停车收费系统(ETC)服务平台日前正式上线提供服务。全国各地车主均可通过国务院客户端小程序ETC服务专区或交通运输部官方微信ETC服务平台免费在线申办ETC,并在今后持
报纸
一个企业之所以在数十年、上百年甚至数百年之后还存活下来,成为了"老字号"企业,这是一个耐人寻味的研究课题。从两家医药"中华老字号"企业——鹤年堂、同仁堂来看,企业与政