【摘 要】
:
当今世界,随着科技的发展,数据量爆炸性增长。一方面是生活产生的数据增加,一方面是数据处理是会使数据维度增加。比如,在购物系统中,若是商品种类中有一万种不同的物品,经过独热编码后将变成一万多种特征。大量的数据,大量的特征一方面,使得大规模模型的算法有了更好的精度,神经网络机器学习等依托于大量的数据在处理各种问题中展现了其优越性,但是另一方面,也对算法有了更多的要求。过大的数据量使得模型训练变得及其缓
论文部分内容阅读
当今世界,随着科技的发展,数据量爆炸性增长。一方面是生活产生的数据增加,一方面是数据处理是会使数据维度增加。比如,在购物系统中,若是商品种类中有一万种不同的物品,经过独热编码后将变成一万多种特征。大量的数据,大量的特征一方面,使得大规模模型的算法有了更好的精度,神经网络机器学习等依托于大量的数据在处理各种问题中展现了其优越性,但是另一方面,也对算法有了更多的要求。过大的数据量使得模型训练变得及其缓慢,读取数据需要占据太大的空间,这种情形对设备性能要求过高。此外,对于过大的数据,传统算法也难以发挥其性能。基于这种考虑,人们通过降维来压缩数据,希望能在保留有用信息的同时,无用的信息被舍弃,即将数据映射为低维空间,从而在低维空间中可以更快地求解问题。本文中主要考虑求解回归问题。回归问题是最常见,基础的问题,文中主要考虑了最小二乘回归问题和岭回归问题。最小二乘回归是最常见的数据拟合方法,在满足一定条件下其是对数据的无偏估计。然而最小二乘回归方法对异常值敏感,且当特征完全共线性或者相关性很高时,无法求解或者效果很差。相比之下,带二范数惩罚项的线性回归问题通过放弃最小二乘的无偏性,提高了模型的稳定性,更符合实际的情况,最小二乘为特殊情况下的岭回归问题,即正则参数为零时。本文应用随机算法加速求解岭回归问题,着重考虑具有对角块性质的SRHT。随机算法通过如随机抽样,随机嵌入等方式进行数据降维,相比确定性算法在一定程度上损失了无偏性,同时具有更快的速度优势。但是诸如SRHT,高斯嵌入等由于需要访问所有数据,故而不便于分布式和并行化程序设计。具有对角块的随机嵌入由于其特殊的结构,可以并行进行变换操作,所以在计算上有着更快的优势,但是与此同时需要更大的嵌入维度才能保证精度。考虑到其在计算速度方面的优越性,本文探讨其在岭回归问题中的应用。SRHT的一种理解为均匀化数据的重要性,然后再均匀抽样。而块对角的SRHT只在部分数据中进行变换,使得数据在块中在一定程度上均衡,但是块和块之间的信息可能会有很大的差别,故而块对角的随机草图往往需要更大的嵌入维度,我们针对该问题,通过非均匀抽样来提高其嵌入性能。
其他文献
胰十二指肠切除术是治疗壶腹肿瘤及壶腹周围肿瘤的标准术式。近年微创技术在胰腺外科的应用发展迅速,国内外学者通过不断改良手术策略,以降低术后并发症发生率、提高R0切除率与患者预后。较传统术式,腹腔镜胰十二指肠切除术由于具有更短的住院时间、更低的术中大出血风险等优点逐渐被胰腺外科医师所接受,但其操作较困难,学习曲线长,若不能实现R0切除会大大降低手术本身带来的益处,选择合理的手术入路、手术策略对实现R0
人体姿态估计,作为计算机视觉领域的重要发展课题,近年来受到广泛的关注。单张图像的多人人体姿态估计方法,致力于在检测出图像中所有人的实例的同时,定位每一个人的所有人体关键点的具体位置。其作为理解图像或视频中的人的行为的基础,为动作识别、行人重识别、行人追踪、三维人体姿态估计、三维人体重建等后续任务的实现提供了重要的辅助。过去的多人人体姿态估计的方法,大多是基于两阶段的,具体地,可大致分为自顶向下和自
点云的法向是各种点云处理任务中的基本特征,随着深度神经网络的兴起,最近已经有相当多的利用深度学习方法的点云法向估计方法被提出,相比于传统方法,这些基于深度神经网络的方法无论从速度上还是精度上都取得了巨大的成功。然而,大多数基于深度的方法都采用从输入数据提取出的特征直接回归法向量这一思路,这对于存在异常值的数据来说,往往表现得很差,对训练数据十分敏感。同时,这使理解黑盒模型中点云法向量估计机制变得十
三维人体重建是计算机视觉领域的重要问题,该问题关注的是如何在静态三维扫描数据的基础上,重建一个具有参数化表示人体网格模型,从而可以进行姿势驱动。三维人体重建在游戏、电影、虚拟现实和增强现实等领域具有十分广泛的应用,因此具有重要的意义。本文首先简单地介绍了三维人体重建问题的背景和相关工作,包括常见的三维数据结构、常见的参数化人体模型以及基于不同思路(优化或者回归)和不同表示(参数化模型或者隐式函数)
最优传输理论研究可分度量空间中概率测度之间的最优传输变换。给定两个概率分布和对应的传输代价函数,最优传输问题求解使得总传输成本最小的传输方案。近年来,随着最优传输理论和算法的不断发展,最优传输理论在深度学习、图像处理、经济学和医学等领域都发挥出巨大的作用。因此,研究计算最优传输问题的高效算法,有助于最优传输理论更好地应用于各个领域。本文首先对求解最优传输问题的三种不同算法进行了介绍和实验,它们分别
深度学习是机器学习的一个分支,通过分层学习获取数据的内在规律和表示层次。目前深度学习被广泛应用在计算机视觉、自然语言处理、语音识别、量子化学以及医学等领域,尤其在图像识别中表现出了出色的性能,这离不开大规模、高质量的数据集以及GPU性能的提升。在传统的图像识别任务中,训练数据的类分布往往受到人工的影响,即不同类别的样本数量基本一致。然而真实应用场景中的数据集通常表现出长尾分布,这给图像识别任务带来
本文以对比分析理论、第二语言习得理论作为指导,采取学科内两种语言交叉研究的方式,对国际中文敬语教学进行系统地梳理总结。通过对比分析以及问卷调查的方式,分析以韩语为母语的学生学习汉语敬语时所存在的主要问题及原因,并结合调查结果及具体教学实践经验提出相关教学建议,以期能在一定程度上为对韩汉语敬语教学提供一些参考。全文主要分为五个部分。第一部分是绪论,主要对文章的研究内容、研究方法、研究综述等进行了概述
《六十种曲》作为“现存明代汇刻传奇最丰富而重要之总集”(傅惜华语),兼有文人案头本与舞台演出本的双重性质,具有很高的研究价值。道具是戏曲创作和戏曲演出中的重要组成部分,对戏曲研究具有重要意义。故对《六十种曲》道具进行研究是可行并具有价值的,既能为《六十种曲》研究增添新的内容,又能将戏曲的文本研究与舞台研究紧密联系起来,还有助于当代剧作家借鉴前人的道具设计进行戏曲创作。本文以“《六十种曲》的道具研究
作为计算机视觉领域的研究热点,图像生成任务具有巨大的理论研究价值与实际应用潜力,其中,场景图像生成由于需要同时考虑多个物体以及物体间复杂的交互关系,更具挑战性。然而,当前大多数方法均从复杂的文本描述、场景图、场景布局中生成场景图像,往往需要用户或是详细阐述物体属性及关系,或是构造专业性较强的结构场景图,或是固定物体间的布局关系,因而用户友好性不足。为了给用户提供便捷化的场景图像生成方式,本文基于知
单幅图像去雨在计算机视觉领域中是一项具有挑战性的任务,且在恶劣有雨环境中获得的图像会影响后续高级视觉任务的性能,因此提出一个高质量的模型来解决图像去雨问题至关重要。本文首先提出一个新颖的密集特征金字塔网格网络(DFPGNet)来解决单幅图像去雨问题。不同于以往的特征金字塔方法,本文提出的密集特征金字塔网格(DFPG)模块采用多路径和多尺度方法,使得DFPG能够融合五个来自不同路径和不同尺度的特征并