【摘 要】
:
异常值检测方法研究是当今数据分析领域的一个热门问题.传统的基于模型的异常值检测方法,往往是先对模型中的参数进行估计,再检测异常值,但是异常值的存在会影响参数估计值,从而使得异常值检测结果不可靠.文章基于线性回归模型,引入异常值识别变量,提出线性均值漂移模型.在进行低维数据异常值检测时,对漂移项施加SCAD惩罚,利用坐标下降算法同时进行参数估计和异常值检测;在进行高维数据异常值检测时,对模型参数和异常值识别变量分别施加SCAD惩罚,利用坐标下降算法同时进行参数估计、变量选择和异常值检测.基于线性均值漂移模型
【机 构】
:
湖北大学数学与统计学学院,武汉430062;湖北大学应用数学湖北省重点实验室,武汉430062
论文部分内容阅读
异常值检测方法研究是当今数据分析领域的一个热门问题.传统的基于模型的异常值检测方法,往往是先对模型中的参数进行估计,再检测异常值,但是异常值的存在会影响参数估计值,从而使得异常值检测结果不可靠.文章基于线性回归模型,引入异常值识别变量,提出线性均值漂移模型.在进行低维数据异常值检测时,对漂移项施加SCAD惩罚,利用坐标下降算法同时进行参数估计和异常值检测;在进行高维数据异常值检测时,对模型参数和异常值识别变量分别施加SCAD惩罚,利用坐标下降算法同时进行参数估计、变量选择和异常值检测.基于线性均值漂移模型,采用SCAD惩罚回归的思想设计坐标下降算法,消除了低维和高维数据中异常值的存在对参数估计带来的不利影响.
其他文献
城乡融合发展水平的科学测度是城乡关系问题由定性分析转向定量评估的基础.在科学把握城乡融合发展时代内涵的基础上,选取加速遗传算法投影寻踪模型测度了2003-2018年长三角地区27座中心区城市的城乡融合发展水平,并采用核密度估计、探索性空间分析、趋势面分析等方法对其城乡融合发展水平的时空特征进行了分析.研究发现:(1)在研究期内,长三角地区城乡融合发展水平总体上呈波动上升趋势;(2)苏州、无锡、上海的城乡融合发展水平明显高于其他城市,而安庆、池州、滁州则为城乡融合发展水平排名最后三位的城市;(3)该地区城乡
数字经济已成为中国经济高质量发展的新引擎,文章以数字产品制造和数字技术应用为代表,基于2017年和2018年中国非竞争型投入产出表,运用投入产出模型研究数字经济与国民经济各部门的前、后向关联关系,定量探讨数字经济对国内经济的作用与影响.结果 表明:数字经济与国内大部分经济部门都存在前、后向关联关系;数字产品制造的需求拉动作用较大,数字技术应用的供给推动作用较大;数字经济对国内经济的影响力和感应度不高,尚未建立起国民经济的支柱产业地位;数字产品制造与第二产业关联度高,数字技术应用与第三产业关联度高,数字经济
利用抽样调查数据对总体参数进行推断通常分为两种途径:一种是基于设计的推断体系;另一种是基于模型的推断体系.基于设计的推断以随机化理论为基础,推断依赖于抽样设计,在大样本下估计量具有无偏性和一致性,但在样本量较小或存在非抽样误差等情况下效率较低.基于模型的推断认为有限总体是一个来自无限超总体的随机样本,推断依赖于模型假设,构建超总体模型具有很大的灵活性,有利于充分利用总体辅助信息并提高估计精度,但在模型假定有误或样本的入样过程不具有无信息性时存在估计误差.如何将两种推断途径相结合,在体现样本对总体代表性的同
文章研究了一阶周期随机系数自回归模型的性质和参数估计问题.首先讨论了该模型均值函数、方差函数以及协方差函数的周期平稳性.其次讨论了当误差服从正态分布时模型参数的估计问题,给出了模型参数的矩估计和最小二乘估计,并通过随机模拟对这两种估计方法进行比较.最后将上述方法用于实际数据的建模拟合分析.结果 表明所提出方法具有较小的误差.
20世纪70年代以来,元话语因其多功能性得到学界的普遍关注和研究,英美学界运用“元话语”这一术语,德国学界多称“元交际”.两者表述不同,其实所指一致.从阐述德国学界关于元交际的理论探讨出发,探讨元交际/元话语作为言外行为标记的实质,并以习近平主席和默克尔总理的新年致辞为语料探究其元话语运用特征,得以发现:德汉语料在元话语运用上具有明显的共性,演讲者都较多运用了人际互动元话语,并较多使用了有助于人际互动、强调观点的读者介入标记、明确表达标记、自我标记和用于组织语篇、解释说明的过渡标记、注释说明标记这些子范畴
海德格尔在1928年的课程《以莱布尼兹为始点的逻辑学的形而上学基础知识》中提出要构建元存在论,以完成他重构形而上学的计划.他尝试通过元存在论来做一个翻转,即:从作为基础存在论的终点的存在理解,转向存在者整体,回到形而上学的存在者层面.在这种翻转中,海德格尔并不是求助于亚里士多德式的“神”或者德国观念论的“大全”来为他的基础存在论进一步奠基,而是意图从基础存在论的世界观念出发对具体的存在者的存在进行阐释,从而建立起伦理学、政治哲学、哲学人类学等等.这个计划最后以失败告终.但是,海德格尔放弃元存在论并不表明这
自20世纪60年代开始,反思传统经济发展模式,提倡保护生态环境,创造更加和谐健康的人居环境的呼声不断高涨.在思想理论层面,人们开始寻求建立一种能够拨正传统经济发展模式的价值理论范式,引导人们思考并正视现有经济发展方式中的不合理性,以改革创新推动经济发展方式的转变,并在价值观层面指导现代经济发展方向的转型,以保证生态环境保护和经济发展能够协调共存.在此情势下,“生态经济学”作为一门新的学科应运而生,生态经济学试图通过透析整体的现代经济发展运转体系,剖析其中存在的问题,并根据人们对生态环境保护的需求,运用新的
建构文化新业态互联网平台的主体责任是关乎国家治理互联网文化产业体系和治理能力现代化的重大命题.文化新业态互联网平台主体责任的提出,意味着互联网平台及其相关文化业态在角色功能、市场地位、管理方式、行业治理效果等方面均发生了重大变化.文化新业态互联网平台的主体责任应包括意识形态责任、经济责任、社会责任、创新责任、法律责任和道德责任.在推进主体责任建构与治理中,其呈现出包容审慎、整体化治理、聚焦音视频产业、关注个人信息过度收集以及重构互联网伦理等特征.破解文化新业态互联网平台的主体责任建构与治理的障碍,需要厘清
文章基于2013-2019年中国30个省份的面板数据,将区域数字创新分为创新效果与创新效率两大维度,研究政府偏好、财政分权对区域数字创新的影响.结果 显示:政府偏好能够显著提升区域数字创新效果,但对区域数字创新效率的激励作用并不显著;财政分权在政府偏好与区域数字创新之间具有正向调节作用.空间效应检验下,政府偏好对本区域及周边区域数字创新效果产生积极影响,但仅对本区域数字创新效率起到促进作用.而在财政分权调节下,政府偏好对区域数字创新效果与效率的直接效应和空间溢出效应均有明显提升.
为研究我国不同区域数字经济分类规模、时空分异及产业驱动特征,文章在已有研究基础上,将数字经济核算来源细分为数字化赋能设备、数字化赋能服务、数字化交易、数字化媒体这四大类行业增加值,同时构建区域经济数字化驱动特征分析方法,分析了我国区域数字经济分类规模、时空分异与驱动特征.结果 表明:2012-2019年,我国数字经济行业增加值构成中,数字化赋能服务类占比第一,广东、北京、江苏相对占优;第二的为数字化赋能设备类,广东、江苏绝对占优;数字化交易类排第三,山东、广东、江苏、浙江占优;数字化媒体类位居第四,湖南、