【摘 要】
:
随着大数据时代的到来,海量数据的出现,数据缺失的问题越来越严重。缺失数据给应用研究和统计分析带来了很大困扰。传统的统计分析方法不能直接应用到缺失数据的处理中,不恰当的处理缺失数据,会导致错误的结论。因此,缺失数据的处理一直以来都是统计学的前沿和热点问题。本文考虑缺失数据下转换模型的统计推断问题,我们采用逆概率加权光滑最大秩相关估计方法来估计转换模型中的感兴趣参数,并对所提出估计量的渐近正态性和相合
论文部分内容阅读
随着大数据时代的到来,海量数据的出现,数据缺失的问题越来越严重。缺失数据给应用研究和统计分析带来了很大困扰。传统的统计分析方法不能直接应用到缺失数据的处理中,不恰当的处理缺失数据,会导致错误的结论。因此,缺失数据的处理一直以来都是统计学的前沿和热点问题。本文考虑缺失数据下转换模型的统计推断问题,我们采用逆概率加权光滑最大秩相关估计方法来估计转换模型中的感兴趣参数,并对所提出估计量的渐近正态性和相合性进行了证明。数值模拟和实际数据分析表明所提出的方法表现效果很好。
本文分为六章,第一章主要介绍论文的研究背景、意义以及国内外研究现状。第二章,我们对数据缺失的原因、缺失模式、缺失机制以及相应的处理方法进行详细介绍,并对逆概率加权的基本思想、最大秩相关的估计原理进行了描述。第三章提出了逆概率加权光滑最大秩相关估计方法,并给出了所提出估计的相合性和渐近正态性,且在第六章给出了相应的渐近正态性和相合性的相关证明。本文所提方法涉及到倾向得分函数,我们对其设定为参数模型。第四章我们通过数值模拟评估了所提出估计的有限样本性质。在本章,我们首先设定数据的缺失机制,然后分别对线性模型、对数转换模型和Box-Cox转换模型进行数值模拟,通过与完全案例分析法来比较所提方法的估计效果;并且通过设定不同的窗宽?,来检验所提估计方法对窗宽?的敏感性。在第五章中,将本文所提的方法应用于含有缺失数据的财务报表数据中,并通过与完全案例分析法的估计结果做比较,研究表明所提出的估计方法更加有效。
其他文献
“经济状态”取决于许多相互依赖的大企业的行为(生产力和投资行为等等),而大企业在经济稳定中发挥着举足轻重的作用,因为经济中存在着“粒度特征”(Granular effect)。“粒度特征”是指:企业规模为幂律分布的特征,即肥尾的特征——少量大型企业与大量小企业共存。这种特征会使中心极限定理失效,大企业异质性冲击在总体上不会相互抵消,即便是个别企业发生倒闭或困境事件,也极易演变为系统性风险。特别是系
众所周知,在现如今大数据的时代背景之下,信贷数据的来源十分复杂,除银行记录外,信贷数据还包含各种社交数据、电商数据、运营商数据以及其它金融机构的信用数据等,不仅数据种类繁多,还普遍存在数据缺失严重、数据异常等问题。因此,如何来应对严重的数据稀疏问题,已经成为了消费信贷大数据风控中的一个难题,而如何从这些海量信用数据中挖掘出那些被隐藏的信息进而对消费者的信用状况进行评估也成为了一项颇具挑战性的任务。
随着科学技术快速发展,人们在医学、生物学、经济、工业等各个领域获得的数据信息呈指数式增长,数据维数越来越高。变量选择是一种非常有效的高维数据信息提取手段,但传统变量选择方法存在一定的缺陷。Cox比例风险模型是一个半参数模型,在生存分析中占有重要地位,但其应用范围被制约在低维数据中。本文将线性模型下DantzigSelector方法和自适应DantzigSelector方法推广到Cox模型中,并研究
稳健性优化设计的目的是在追求系统输出最佳性能的前提下,尽可能地使不确定性对于系统输出值的影响程度最低,在实际生产中具有十分重要的意义。在现代的产品优化设计领域中,仿真模拟已经成为了设计优化领域中必不可少的手段。随着科技不断发展,仿真能够达到的精度也不断提升,但与之伴随而来的是时间成本与资源消耗的剧增。稳健性优化设计的应用也掣肘于这些实际成本问题。 近似模型能够代替昂贵的仿真模拟,同时保证初始问题
图像修复是利用人们已知的信息来对图像中结构化信息的缺失进行恢复的过程。在图像修复中,人脸修复是运用范围最广,使用场景最多的应用之一。随着现代物质生活水平的飞速提高,电子产品的不断更新换代,人们对于人脸图像的要求越来越高,但现有技术无法令人满意,且对于损坏面部图像处理的功能也并未普及。因此,人脸修复算法的研究具有极大的商业价值和潜在的社会价值。 深度学习方法在人脸补全方面能够捕获图像更多的高级特征
随着我国经济的快速发展,空气污染问题也越来越严重,影响了人们的身体健康和日常活动,因此利用数学模型来研究空气污染指数有着重要意义。 本文首先给出了一个随机微分方程来描述空气中污染物的动力学模型,并使用Euler–Maruyama算法对方程进行离散化,利用2014年至2017年间武汉市空气质量指数的数据,通过极大似然估计得到了方程的参数,并对未来两年的空气质量指数进行离散化模拟。之后,将随机微分方
分数Brown运动(FBM)在长记忆过程的研究中占据了极其重要的位置,特别是随着随机积分理论的发展以及Black-Scholes期权定价理论的形成,FBM在时序分析中的地位日益突显,成为自然过程和金融市场中常用的数学模型,方兴未艾的Hurst指数估计方法也成为人们关注的重点。 本文主要研究了推广的复合分数Brown运动以及Hurst指数的贝叶斯估计方法。本文首先介绍了FBM的各种性质、模拟方法和
本文综合统计分析方法、空间基尼系数、泰尔指数、空间面板等方法对2000—2017年全球人类发展水平空间差异演化及影响因素进行研究发现:①从2000年到2017年,全球HDI平均水平从0.630上升到0.717,增长了13.78%。但是从全球平均HDI增速来看,全球人类发展水平增速逐步趋缓。HDI三个分项指数值其绝对值由高到低依次为寿命指数、收入指数和教育指数。教育指数虽然得分最低,但增长最快,表明
近年来,随着人们消费观念的改变和互联网科技的进步,消费金融行业得到了蓬勃发展,越来越多的企业涌入这一领域。然而,在消费金融覆盖人群越来越广的同时,贷款欺诈现象也愈演愈烈。因此,在放贷过程中,对客户信用的鉴别显得格外重要,这也是风险控制中的重要环节。传统的风险建模运用了用户的大量信息作为协变量建立统计模型或机器学习模型,用模型的输出来判定客户的信用水平。但是在有些情况下,用于建模的协变量包含的信息可
数据时代的到来使得数据逐渐上升为国家战略性资源,作为数据的重要载体,数据库的经济价值也日益凸显。与SNA1993不同,SNA2008将数据库与计算机软件剥离开来独立作为一项固定资产进行核算,此变革正是对其经济价值不容忽视的认可。然而,令人遗憾的是即便数据库的经济价值已不可小觑,目前几乎所有国家实践中均未将其纳入核算,有些国家甚至未将其纳入本国核算体系。究其原因,不外乎数据库核算理论有待完善以及统计