大数据下的数据选择与学习算法研究

被引量 : 0次 | 上传用户:chunwei_song
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息爆炸时代给我们带来了无论种类还是数量上都空前巨大的信息。随着计算机通信与互联网技术、各种传感器所带来的物联网技术的极速发展与广泛应用,大量数据的收集变得非常容易且成本低廉。这为人工智能领域中迫切需求的机器学习、模式识别与计算机视觉的快速发展提供了必要的数据支撑。然而,如何有效地选择数据,如何从数据中学习有用的信息,成为摆在科研人员面前的重要问题。本文围绕数据选择和数据内在子空间和流形信息学习等问题通过模型建立、算法设计和分析等方面进行了系统性的研究,并将相关算法应用于协同过滤、图像修补和视频背景建模等工程领域。本论文的研究成果有:1.针对海量数据的人工标记需要花费高昂的人力和时间成本,主动学习作为一种适宜的最小化标记成本的方法被越来越多的研究者所关注。在已有的主动学习算法中,有的方法利用了未标记数据的结构信息,但代表数据点的选择需要额外的计算,例如层次聚类;有的方法需要每次迭代预先训练多个分类器,从集成的角度找出需要人工标记的数据;有的方法仅仅考虑每次迭代中最靠近最优决策面的数据。为了克服上面的不足,我们提出了一种成对K近邻伪剪辑的主动学习算法。该方法受K近邻剪辑预处理思想的启发,并且在每次迭代中仅需要训练一个分类器和考虑最优分类超平面附近的多个数据。同时,我们也给出了相应的算法复杂度分析和参数分析。大量的实验结果表明了本章提出的成对K近邻伪剪辑的主动学习算法相对于其他主流的主动学习算法在仅需查询并标记少量样本下就能获得较好的分类性能。2.低秩矩阵填充与恢复问题是典型的从已知数据中学习其内在结构和信息的实际问题。最近几年,这个问题在数据池环境中通过矩阵的迹范数最小化技术或其他奇异值分解的变种方法得到了很好的解决。在这种环境中,海量数据的规模、样本的大小和视频帧数等都是提前获得的。所以前面的问题能够通过在每次迭代中对数据(稀疏)矩阵进行奇异值分解来解决,但时间复杂度非常高,因此这类方法并不适合应用于实时的环境中。为了能实时的对视频流进行背景建模,本文提出了一种-范数框架下基于Grassmannian流形的在线梯度下降算法模型。应用该模型,能在数据流的环境中在线的解决矩阵填充与恢复问题。通过引入黎曼流形优化,沿着Grassmannian流形测地线的最优子空间能够被找到。作为增量学习,在每次迭代中只涉及一个数据样本(向量)的计算。-范数框架的设计是为了能从被稀疏大噪声(局外值)和高斯噪声污染的数据中逼近恢复原始数据。基于乘子交替方向法和grassmannian流形优化的一种迭代算法被提出以解决在线环境下的鲁棒低秩矩阵填充、鲁棒低秩矩阵恢复以及视频监控中的背景建模等问题。此外,一种新颖的自适应步长策略被提出来有效地追踪子空间的变化。大量的人工和实际数据的实验表明,本文的方法与其他主流的算法相比拥有更好的鲁棒性和有效性。3.从已知数据中学习其内在的子空间信息可以被推广到学习其满秩矩阵分解背后的黎曼商流形结构,其中低秩约束可以通过满秩矩阵分解来表示。为了能解决更一般的矩阵填充问题,这其中包括病态矩阵和大规模矩阵,本文从测度的角度分析了现有的主流黎曼流形优化算法,并首次根据黎曼几何结构和目标函数的尺度信息在黎曼商流形切空间的水平子空间上构造一种新颖的黎曼测度。在黎曼商流形上优化所需的必要组件被重新设计和计算。为了验证所构造的黎曼测度的有效性,在黎曼商流形上的非线性共轭梯度法被采用。大量的数值实验表明,通过比较算法的收敛性,本文提出的黎曼测度优于现有的黎曼测度。采用这种新颖黎曼测度的非线性共轭梯度算法在收敛性上优于主流的低秩矩阵填充算法。4.通过结合多个个体分类器来改善单个分类器的性能近几年越来越成为一个研究热点。随之而来的问题就是在产生的众多个体分类器中是否都对降低集成系统的泛化误差有益。平衡个体分类器之间的差异和个体分类器自身的准确率,这本身就是设计集成学习算法的出发点同时也是难点。因此,本文提出了一种基于整数矩阵分解的选择集成算法。该算法分别从差异性和准确率两个因素出发,为了增加个体分类器之间的差异,将个体分类器的预测标记作为原始目标,且将正确标记引入,以此构造一个代表个体分类器的整数矩阵,通过对该矩阵进行分解获得个体分类器的投影方向,最终获得新的个体。然而,为了保证变换个体的性能,采用标准的性能判别准则去除集成中性能较差的个体。最后,通过雷达一维距离像的实验结果表明该算法有效地平衡了个体间差异性和个体自身的准确率这两个因素,相比单个分类器和其他集成方法,该方法提高了对雷达目标的识别准确率。5.针对在一个有监督学习任务中,如果目标域训练样本的数量非常稀少,这势必产生影响目标域中分类器学习和推广性能的问题。为了解决这个问题,除了使用主动学习的方法从目标域选择富含信息的样本并给与标记以增大训练样本外,在某些真实环境中往往已经存在另一些有标记的样本,且其获取相比目标域的训练样本更加容易,但是这些样本却与目标域的样本具有不同的数据分布形式,这些具有不同分布的有标记样本构成源域。因此,迁移学习被引入来处理目标域训练样本稀少的这类分类问题。我们提出了两种新的迁移学习算法:第一种是基于旋转森林空间变换的迁移学习算法,该算法通过旋转森林空间变换将源域样本向目标域形成的空间进行投影,通过测量变换后源域样本和目标域样本的相似度来选择可利用的源域样本帮助目标域中分类器的学习。通过文本数据的分类实验表明,该章所提算法相比其他算法获得了更好的分类性能。第二种为基于数据驱动的线性空间映射迁移集成算法。在该算法中,通过将源域的样本向目标域中容易被错分的样本空间进行投影变换,从而选择出对目标域分类有帮助的样本加入到目标域,改善其分类性能。特别地,为了更加有效地选择源域样本,本文将源域样本进行随机划分,并分别对于每个子集进行投影变换,然后结合每个子集获得的结果。对于UCI数据和合成孔径雷达目标图像数据的分类实验表明本章提出的算法相比其他算法有效地提高了目标域的分类性能,且改善了单个迁移的不稳定性。
其他文献
目的:膏摩疗法是将药物与推拿手法有机的结合起来的一种极具中医特色的治疗方法。通过建立急性软组织损伤家兔实验模型,观察膏摩对家兔血清神经递质去甲肾上腺素(NE)、多巴胺
目的探讨治疗直肠前凸的手术方法。方法对64例直肠前凸患者应用经阴道入路治疗,观察其术后效果。结果本组痊愈53例(82.8%),好转8例(12.5%),无效3例(4.7%)。疗程18~26天,平均23
随着我国高速铁路的快速发展,铁路路基大量出现,其稳定性严重影响整个高铁网的安全与运营,特别是深季节性冻土区铁路路基的稳定性尤为重要。随着季节更替,季节性冻土区铁路路
我国居民在银行的存款率居于世界前列。截至2014年末,中国金融机构的各项存款余额高达116万亿元。然而,被公民视为最安全的存款途径的银行,今日却屡屡曝光出存款不翼而飞的丑
目的调查城市社区居民掌握应急救护的相关知识及操作技能状况。方法采用问卷调查,2012年1~7月对合肥市293名社区居民进行调查。结果社区居民急救知识和技能掌握现状不佳,对培
随着国际互联网技术在世界范围内的迅速发展和日益普及,有关远程互联网络教育的问题受到了越来越多国家的重视。其中,尤其是如何正确地评价这种新型教育形式的教学质量是摆在各
目的:本课题基于国家中医临床研究基地业务建设方案,通过对冠心病真实世界诊疗规律的探索性研究,探讨冠心病人群的一般特征,证候分布及静点中药制剂用药规律,从而达到优化冠
信贷业务作为商业银行维持自身生存和发展的重要基础,是其日常业务开展中最重要的一个业务环节。在当前我国金融体系下,对很多中小企业来说,银行信贷已成为他们的一个最重要
孤独是世界文学的共同母题,众多作家都对孤独有着独特的书写,刘震云也毫不例外。新世纪以来,刘震云怀揣着用生活来写哲学的态度,直面惨淡的社会现实,用自己深刻的洞察力发掘
水资源是地区社会经济发展的重要保障。流域内社会经济的快速发展使得河道内(水电站)及河道外用水需求不断增加,以及生活、生产、生态用水分配不当,破坏了河道内自然生态系统