随机森林核函数在含球面数据的回归与分类问题中的应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jasn114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
球面数据作为刻画方向的数据,是自然界广泛存在的一种数据形式。在一些实际研究中,会遇到球面数据与欧式空间中的线性数据并存的情况。例如,分析风能时,预测变量包括风向、风速和时间。目前,关于混合数据统计模型的相关研究较少。本文以含球面预测变量的回归和分类为研究课题,重点探究了基于随机森林核的非参数回归模型在球面数据中的拟合能力。内容分为:(1)将随机森林算法作为一类自适应核函数应用于非参数回归。针对球面预测变量和混合预测变量的回归问题,提出基于随机森林核的局部线性回归模型。最后通过数值实验简要讨论随机森林核估计的渐近性质。(2)将非参数估计方法推广到含球面预测变量的二分类问题中。对Logistic回归进行局部最大似然估计,建立基于随机森林核的局部线性Logistic回归模型。在回归和分类问题的实验中,对比了几种基于不同核函数的非参数回归模型的拟合效果。实验表明,相比于von Mises-Fisher核、高斯核和高斯-球面核,随机森林核在拟合能力和计算效率上具有更突出的表现。从拟合能力上来看,von Mises-Fisher核和高斯-球面核在低维数据中表现较好,在高维数据中效果很差。对于随机森林核,它在低维数据中与von Mises-Fisher核和高斯-球面核的拟合误差很接近。在高维数据中,随机森林核展现出较强的性能,其拟合效果要优于其它三种核函数;从计算效率上来看,随机森林核不涉及带宽选择或任何参数估计,计算速度是其它三种核函数的几倍到几十倍不等。在分类模型中,本文还将基于随机森林核的非参数二分类模型与随机森林、支持向量机等多种分类器进行对比。实验表明,本文模型在中维和低维数据中均优于其它几种分类器,在高维数据中与随机森林的分类效果相近。
其他文献
近年来,评价素养在国内外受到越来越多的关注,研究者们反复强调教师评价实践对学生学习表现的影响之中,然而有学者发现,学校和课堂层面的评价过于依靠考试成绩,尤其是标准化考试的结果。同时,教育相关部门逐渐重视教学评估在教学实践中的重要作用,教师评价素养受到前所未有的关注,同时面临更高的要求。为了探究贵州省教师评价素养现状并为教师评价素养提升途径提供参考依据,本研究采用定量分析和定性分析相结合的方法,通过
学位
学位
由严格理论导出的Logistic回归模型被广泛应用于多个领域,但传统的Logistic模型存在过拟合问题,且不具有稀疏性,导致估计参数全部或大部分不为0,然而大多数实例(比如糖尿病的风险预测)表明,尽管风险因素变量有许多个,但影响结果的关键变量通常只有少数几个。为解决以上问题,本文提出了正则惩罚项由L1/2范数和L1范数的线性组合构成的L1/2+1-Logistic回归模型,并对该模型的求解算法进
学位
近年来,实体经济市场消费者的需求日益下降,尤其是受到疫情影响,实体企业投资回报率不断下滑。在这种情况下多数的实体企业都进入到了金融、投资性房产等高回报率的行业,试图通过跨行取利这种方式来寻找新的生意机会点。实体企业金融化这一概念就此产生,并在这几年不断发展,成为了国家监管关注的焦点。而探寻金融化成因的构成要素,也是当下金融研究的热点之一。本文对金融化微观领域的成因进行探究,通过“烙印”理论推导CE
学位
我国已经步入经济新常态的发展阶段,创新逐步替代依靠资源、低成本劳动力成为新的经济驱动,使得我国社会、经济发生深刻变革。同时我国的资本市场对外开放也进入了新的阶段,而资本市场开放与改革是为了对提升配置全球资本要素的能力,从而更好地促进实体经济的高质量发展。融合创新壮大实体经济发展,是我国经济发展的重点。A股成功被纳入MSCI指数是我国资本市场对外开放的巨大进步,反映了外界对中国资本市场开放与改革的肯
学位
教学学术和在线教学都是高等教育的新兴事物,两者存在着内在的关联。教学学术是一种以教学为对象的学术活动,信息技术推动了高校在线教学的多样化发展。信息化时代,教育技术向教学领域延伸,线上教育的复杂性对高校教学的开展形成了挑战。基于教学学术的在线教育,表征着高校教学的发展方向。通过信息技术,高校教学实现了从“课堂教学”到“直播教学”的转变;通过教学学术,高校在线教学还将实现从“技术”到“学术”的升华。在
期刊
教育数字化是确保全民优质教育的最有力工具,为我国高等教育高质量发展提供新动能。文章以数字化转型的高等教育内涵和人才培养效能作为切入点,基于教学学术与数字化相结合的理论视角,分析了高校教学共同体的深层作用、作用渠道以及在线教学背景下的表现,并利用分学科、分地区教育数据统计,深入探讨了数字化变革和高等教育普及化背景下,智慧解决教师资源有限、社会发展新型人才缺少、教学复合交叉不足、软硬新基建不充分等现实
期刊
保险风险度量是保险风险领域的一个重要的问题,常见的风险度量指标有破产概率、条件尾期望(CTE)、在险价值(VaR)等,这些指标的本质就是总索赔额的尾概率和矩尾。另一方面,经典风险模型假设索赔额服从轻尾分布且相互独立,但研究表明保险公司索赔额、风投领域资产值、重大灾害损失额等不满足轻尾与相互独立假设,而是具有相关关系的重尾分布。因此为精确刻画相依背景下的保险风险,越来越多的学者开始探讨重尾风险模型的
学位
在大数据时代,数据资源是分析各个领域不可或缺的资料。随着信息收集方式的不断进化,数据资源的维数和数量也逐渐增多,产生了大样本数据及高维数据。就高维数据而言,由于数据维数的增高使得计算难度大幅上升,如何有效地分析高维数据,是研究者们面临的非常重要的问题。一个解决高维数据分析难题的有效方法就是变量筛选,通过变量筛选将高维数据降低到适当维数,为后续的分析工作有效减负。论文的第一项工作是将条件互信息用于变
学位
2023年以来我国物价涨幅持续走低,引发了市场对通货紧缩风险的担忧及热烈讨论。本文以我国2023年5月份发布的通货膨胀数据为切入点,对当前我国所面临的通货紧缩风险进行深入探讨,并与我国前几次通货紧缩情景做分析对比。本文认为,受猪肉、原油价格周期性扰动影响,当前我国短期内存在通货紧缩挑战和物价下行压力,但近来我国核心通货膨胀率维持在0.6%~0.7%,距离严格意义上的通货紧缩仍有一定距离。从当前以及
期刊