基于抽样的高维矩阵低秩逼近及应用研究

来源 :兰州财经大学 | 被引量 : 0次 | 上传用户:frozenCisco
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,海量数据大多数以高维矩阵形式存在,如何对高维矩阵进行降维成为机器学习的研究热点问题。利用抽样技术降低高维数据的维度和计算复杂度已被证明是一种有效手段,但不同的抽样和矩阵重构方法在降维过程中产生的误差存在较大差异。本文从抽样的角度出发,研究高维矩阵低秩逼近的方法与误差测度,关注在提高低秩逼近精度的同时,能够降低计算复杂度。主要工作包括以下几方面:首先,对于大规模数据集,Nystr(?)m方法是一种较为有效的矩阵低秩逼近技术,旨在从原始数据矩阵中抽取部分列重构原始数据矩阵的低秩逼近矩阵。考虑到不同抽样方法对重构矩阵的精度有较大的影响,提出将不等概抽样Nystr(?)m方法与随机奇异值分解(SVD)方法相结合,进而在矩阵重构过程中提高矩阵低秩逼近精度,并有效降低计算复杂度。研究结果表明,提出的Nystr(?)m方法在矩阵重构中具有较高的精确度,且可以极大的降低计算复杂度。其次,高维大数据矩阵分析中,使用少量主要成分逼近原始数据矩阵是常用方法,这些主要成分是矩阵行和列的线性组合,不易对数据的原始特征进行解释。提出将不等概抽样与自适应抽样结合的适用于CUR矩阵分解的抽样方法,并将该抽样方法与矩阵随机奇异值分解(SVD)方法相结合,对抽样得到的子矩阵C和R进行随机SVD分解,在控制计算复杂度的同时提高矩阵低秩逼近重构的精度。研究结果表明,基于不等概自适应抽样和随机SVD分解相结合的CUR矩阵分解方法在矩阵低秩逼近中具有较高的精确度和稳定性。最后,将基于不等概抽样和随机SVD分解Nystr(?)m方法拓展运用于谱聚类,利用上市公司股票财务比率数据进行实证分析。提出基于不等概抽样Nystr(?)m特征提取方法,通过提取影响上市公司业绩的主要特征指标,在降低数据维度和数据计算复杂度的同时最大可能保留原始数据信息,并在选取特征变量的基础上对上市公司进行谱聚类分析。研究结果表明,按抽样比例为20%对原数据指标进行特征提取,可以均匀包含原数据10大类一级指标,表示特征提取的结果具有较好的代表性。谱聚类结果分析可见,将选取的73家上市公司分为4类,通过聚类效果评价准则,得到表示聚类效果的值R~2=0.72,表明此次聚类具有良好的效果。将基于不等概抽样与随机SVD分解的CUR矩阵分解拓展运用于偏好特征提取,该偏好特征提取方法基于原始数据抽样,数据可解释性较高,意义明确。利用用户-电影评分数据进行实证检验,研究结果表明,利用CUR矩阵进行偏好特征提取算法性能较好,提取的用户或产品的特征能较好地反映原始数据特征;且随着抽样提取的列数和行数的增加,偏好特征提取的准确率呈上升趋势,压缩率呈下降趋势;将基于CUR矩阵分解的偏好特征提取方法与基于SVD分解的偏好特征提取方法相比,前者的准确度远远高于后者。
其他文献
随着经济的快速持续发展,大量的能源需求和过度开发,造成植被破坏,废气排放量增多等不良影响。这直接影响空气质量的优良程度,从而影响人民的身体健康。而兰州市作为群山环绕的工业城市,大气污染物消散困难,造成空气质量下降。本文利用兰州市2014年至2020年空气污染物浓度数据,探究兰州市空气质量的变化规律,分析兰州市的空气质量的特性为后续的空气质量指数预测提供条件。在对几种模型效果对比分析的基础上,选择了
学位
具有分层结构的数据在生活中是十分常见的,这类数据使用范围广,常用于增长性研究、机构效应和综合研究。为了处理分层数据提出了分层线性模型,该模型有两个基本假定:(1)组间误差项独立同分布且均值为零、方差有界;(2)各层模型均为线性。然而,在实际研究中,数据经常会存在异方差或者重尾尖峰的情况,协变量和响应变量之间也经常存在非线性的关系,所以,上面假定不能满足实际对数据分析的需要。另外,分层线性模型在处理
学位
随着互联网快速发展,其应用和服务广泛渗透人民生活,网络社交平台作为人们发布观点的主要渠道,容易形成舆情对网络环境产生一定的影响。新冠肺炎疫情给全球经济带来了巨大的冲击,经济和社会发展受到影响。随着疫情得到遏制,国家重心重新回到经济和社会发展上,地摊经济重新被提起,不仅可以丰富人们的业余生活,也可以创造更多的就业岗位,促进经济发展。人们对地摊经济的讨论越来越多,“地摊经济”逐渐成为社会热点话题。而当
学位
贫困是世界性问题,其动态性、普遍性和易发性等多种特征,导致地区经济发展迟缓、社会发展不稳定,成为全面提高人民生活水平的阻碍。我国作为世界上最大的发展中国家,始终在与消除贫困做斗争。当前,脱贫攻坚已取得重大胜利,但是脱贫摘帽并不代表贫困问题走向终结,刚刚越过贫困标准线的长期贫困人口依然面临返贫的风险,如何让该类人群和地区实现稳定脱贫成为当前帮扶工作的重点。基于上述问题,本文以原扶贫开发工作重点县甘肃
学位
随着世界经济全球化和区域经济一体化的不断深入,城市间经济协作逐渐成为21世纪全球以及区域竞争的主要载体。城市与区域之间相互依存,相互推进。在中国现行社会主义市场经济机制下,中心城市与区域内其他城市相比具有更为重要的作用,主导着区域经济的发展,其辐射带动能力的强弱决定了区域经济发展的速度和质量。兰州作为西部重要的区域中心城市,也是甘肃省唯一的中心城市,近年来经济增长较快,发展活力明显增强,城市辐射能
学位
随着互联网的逐步普及和数字化进程的不断推进,不同国家、地区、行业、家庭和个体之间在拥有和应用网络信息技术上的差异造成了数字鸿沟,引发信息落差及贫富进一步分化等问题。数字鸿沟反映了各群体在信息时代所面临的机遇差别,是网络经济社会中个人、群体获取知识、掌握创新思想的能力以及创造财富的能力差距的表现,任由信息化非均衡发展必将催生新的极化格局。比起宏观地区整体水平差异,微观层面的信息技术极化现象更能体现其
学位
涡轮发动机与航空航天等国防工业密切相关。为了提高涡轮发动机的热效率,需要不断提高涡轮进口温度,这会导致涡轮叶片的热负荷逐渐增大。为了使得叶片能够在这种高温环境下安全工作且有较长的使用寿命,发展高效的叶片热设计技术是关键。对于工业中涡轮叶片的初步设计过程,需要有能够快速求解、且具有一定计算精度的方法。本文基于边界层方法,研究了叶片外部边界层流动换热问题。该方法在保证一定计算精度的情况下,可以快速地求
学位
从08年全球金融危机开始,金融系统的波动对宏观经济的影响已经变得越来越不可忽视,监测和防范系统性金融风险显得愈发重要。而金融状况指数(F CI)是一种衡量金融市场整体变化的综合指标,可以作为货币政策和宏观经济的指示器及测度指标。因此,中国FCI构建及其动态特征分析对我国防范经济金融风险至关重要。本文在已有研究的基础上基于贝叶斯估计方法构造两种动态金融状况指数,并对其波动特征和权重差异以及金融状况指
学位
理想状态下的数据一般具有线性、平稳性及复杂性低等特点,数据的准确预测,不仅可以为投资者提供决策支持,也可以让政府制定相关政策有参考依据。然而,现实中的数据由于外部各种因素的影响而呈现出复杂性高的特性。此外,再加上突发事件的影响,使数据的预测变得越来越困难,因此寻找一种可靠且有效的方法来预测数据至关重要。当前金融数据预测的方法主要有传统的计量经济方法、人工智能方法和分解集成方法。传统的计量经济方法在
学位
陶瓷基复合材料(Ceramic matrix composites,CMCs)具有较高的高温强度、化学惰性以及较好的热稳定性,同时还具备良好的韧性,是具有广阔前景的高温结构材料,其应用包括燃气轮机、热交换器和核反应堆组件。弱的界面结合是提高CMCs韧性的关键因素之一,常通过预先在纤维表面制备一层弱界面涂层,促进CMCs断裂过程中裂纹在纤维/基体界面的偏转以及纤维拔出,以此提高CMCs的韧性。目前公
学位