复杂函数型数据的有效统计分析

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:applechenli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当一个变量被多次测量或观察时,这个变量可以看作是一个函数,则该变量称为函数型变量,而该变量的数据称为函数型数据。函数型数据通常是时间的函数,但也可能是空间位置,波长等的函数。函数型数据作为统计学的一个新领域,近些年是很多国内外学者关注的热点并且在很多领域得到了广泛的应用,例如临床,生物统计学,流行病学,社会和经济领域。在函数型数据分析中,函数型回归模型刻画了函数型变量和标量变量之间的关系。根据响应变量和协变量的类型,通常可以将函数型回归模型分为三类:(i)响应变量是函数,协变量是函数(function-on-function);(ii)响应变量是标量,协变量是函数(scalar-on-function);(iii)响应变量是函数,协变量是标量(function-on-scalar)。随着研究问题复杂性的增加,函数型数据出现了一些新的特征,包括大规模性、动态性、交互性等。为此需要提出新的模型和分析方法。本文基于不同的函数型回归模型研究了几个问题。首先,受近期研究大量函数型数据(例如COVID-19数据)的启发,本文提出了一种新的动态交互半参数函数型回归模型。该模型研究了一组协变量之间的动态交互效应及其对函数型响应变量的影响。该模型包括了最近提出的许多重要模型。通过张量积B-样条近似未知的二元系数函数,本文提出了一个三步估计法来迭代地估计未知的两元变系数函数,单指标参数的向量以及随机函数的协方差函数。本文还对得到的估计的渐近性质进行了研究,包括收敛速度和渐近正态分布。此外,本文还基于L2距离构造了一个检验统计量来检验动态交互效应是否随时间/空间位置而变化,并证明了该检验统计量的渐近正态性。我们通过三个数值模拟研究了本文提出的方法的表现和假设检验的表现。本文还将提出的动态交互半参数函数型回归模型用于分析COVID-19数据和ADNI数据。在这两个实际应用中,假设检验的结果表明,两元变系数函数随单指标和时间/空间位置而显着变化。例如,我们发现人口老龄化与社会经济协变量(例如每1000人中的病床数,医生,护士和人均GDP)的交互效应对COVID-19的死亡率的影响在COVID-19大流行的不同时期有所不同。还通过用动态交互半参数函数型回归模型估计了 141个国家/地区与COVID-19死亡率相关的医疗设施水平指数。其次,随着科学技术的发展,数据量呈指数增长,这为研究人员提供了更多的分析信息。同时,尽管计算资源迅速发展,但是大量的数据也给研究人员分析数据带来了挑战。一个挑战是,使用海量数据拟合模型需要太多内存,甚至超过了一台计算机的最大容量。此外,计算时间太长,无法获得结果。为了解决这些难题,其中一个有效的方法是从海量数据中抽取子样本作为全部数据的代理替来进行分析。受函数型线性模型中海量数据的存储和计算的挑战的启发,本文通过最小化抽样估计量与基于完整数据得到的估计量的渐近积分均方误差(IMSE),为函数型线性模型提出了一种基于L-最优准则的最优抽样方法。与使用所有数据进行计算相比,该算法具有较高的计算效率,并大大减少了计算时间。此外,本文给出了抽样估计量的渐近性质。在数值模拟中,分别在三种情况下,对本文提出的抽样方法的表现以及其与均匀抽样方法的比较进行了研究。另外,我们使用此抽样算法对三个阶段的全球气候数据进行了分析,每个阶段的数据的样本量均为n=1,028,032。通过对全球气候数据的分析,很明显可以看出基于L-最优准则得到的最优抽样方法比均匀抽样方法表现要好,并且可以很好地对基于完整数据得到的估计结果进行近似。第三,对于函数型广义线性模型,本文也提出了一种基于L-最优性准则的最优抽样方法来解决这些计算时间和存储难题。本文还对函数型广义线性模型下的通过抽样方法获得的估计量的渐近性质进行了研究。在数值模拟中,本文分别在函数型逻辑回归和函数型泊松回归两种情况设定下,对本文提出的函数型广义线性模型下的最优抽样方法的表现进行了研究,并将其与均匀抽样方法进行了比较。此外,本文使用函数型广义线性模型下的抽样方法来分析肾脏移植数据。数据模拟以及肾脏移植数据的结果都表明,本文提出的最优抽样方法要优于均匀抽样方法,并且最优抽样的结果非常接近基于完整数据得到的估计结果。最后,我们把本文中提出的模型和分析方法所涉及的算法都编成了相应的R语言代码和软件包,以便其他研究者使用。
其他文献
随着化石能源的快速枯竭和环境污染的日益严重,开发清洁的可再生能源已成为社会可持续发展的当务之急。而常见的可再生能源如太阳能具有间歇性和空间分散等缺点,因此可再生清洁能源的高效转化与存储就成为全世界研究机构关注的焦点。其中,探索安全高效的电解水制氢能量转化技术和锂离子电池能量存储技术成为全球科学家的研究热点。但是,现有能量转化与储存材料存在活性低、稳定性差和成本高等问题。针对这些挑战,本论文以地球储
学位
宏观经济不确定性是度量经济系统不可预测程度的重要指标,2008年金融危机以来吸引了学界的普遍关注。宏观层面,宏观经济不确定性可改变政策执行效果,影响产出、投资、消费等多个方面;微观层面,宏观经济不确定性影响企业投融资决策和家庭资产配置。因此,宏观经济不确定性的相关研究对宏观金融政策制定者、企业和个人投资者均具有重要的理论和现实意义。研究宏观经济不确定性需首要解决如何测度宏观经济不确定性的问题。关于
学位
在气候问题日益显著的当下,碳减排成为世界各国共同关注的焦点。我国多次在国际会议上作出庄严的承诺,显示出了坚定的减排决心,也充分体现了大国担当。2020年9月22日,在第75届联合国大会期间,中方提出将提高国家自主贡献力度,采取更加有力的政策和措施,二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和。碳减排是一项系统性的工程,考虑到我国地区间经济发展水平和资源禀赋的显著差异,基于
学位
控制图作为统计过程控制领域最重要的方法,在工业生产、疾病防治、地质监控等领域有着广泛的应用。受限于历史样本容量大小、理论研究基础和计算复杂度等因素,传统的统计过程控制图研究通常基于固定的历史样本观测和固定的参数估计来开展。而随着工业大数据理念的跟进、数据采集和数据分析技术的提升,待监控的数据流普遍呈现“形式复杂化”、“特征动态化”等样态。“固定化”设计的控制图已无法完全满足实际生产领域的监控需求,
学位
基于学习者为满足取得佳绩的期望和需求而调动情绪的倾向和学习者所认同的学习策略之间的差异的教学具有非常重要的作用。因此,为了往后的深入学习,有必要理清学习策略和语言学习策略的概念。技巧是学生实现目标的工具,也是学习策略的一部分(Derry,1990 and Schnotz,1994)。而语言学习策略是综合目标语言、学习者自身特点和其他方法的较为宽泛的概念(Ehrman,Leaver,and Oxfo
学位
进入21世纪,人工智能、大数据、云技术、生物技术等各项重大技术几乎在全球各个领域掀起了波澜壮阔的巨变,驱动着社会诸领域发生根本的变革。在教育领域,人工智能的全方位渗透激发了人们对未来学校的无限想象,更引发人们对未来学校的关注与热议。自从微软公司资助的“未来学校”在费城播下种子之后,以未来学校命名的会议、项目、计划迅速向全球蔓延开来,世界各国纷纷启动信息技术“重建”学校教育的行动。在此背景下,未来学
学位
从晚清开始,新旧思想驳杂,中西文化冲突强烈,在传统思想与现代文明交织的多元价值社会里,五四新文学先驱者之所以激进而又坚定地站在了新文学的阵营里,与他们的知识系统有着密切的关系。五四新文学先驱者的知识系统是新文学发生的主体性因素,是主体创造力的重要来源。因此,本论文从五四新文学先驱者多元化的知识类型、五四新文学先驱者的知识的现代性转变、五四新文学先驱者的知识对其思想与文学创作的作用、五四新文学先驱者
学位
复杂网络研究作为新兴的学科方向之一,极大地吸引了来自不同学科研究人员的广泛关注。针对复杂网络的定性和定量研究,有助于揭示复杂网络的潜在特征以及复杂系统中普遍存在的一般规律,在生物医药、社会科学、金融工程等诸多学科中具有重要的学术和实践意义。复杂网络的社区结构划分是有效降低复杂系统复杂性的方式之一,它有助于人们更好地分析和认识复杂系统中个体组织特性的结构,更加深入地理解复杂系统的演化机制,是人们改进
学位
相较于单个参数模型,有限混合模型能够更好地刻画来自多个子总体的异质性数据的分布特征。在很多实际问题中,混合模型的真实成分个数通常是未知的,从而给模型的统计推断带来困难。一般情况下,更容易得到混合模型成分个数的上界,但是基于这种扩大的模型进行参数估计存在一些问题,包括:参数缺乏可识别性、费希尔信息矩阵退化以及真实的模型参数位于参数空间的边界。针对这些问题,本文研究了混合模型参数估计的收敛速度以及成分
学位
在生物医学、经济金融、人口学、生态环保等多个领域,都存在着一种情况,即实验者无法观测到目标事件具体发生的时间,由此产生的数据被称为删失数据;根据观测时段和事件发生时间的时序关系,删失具体有左删失、右删失和区间删失三种分类。在很多既往研究中,为了方便建模,缺失的、不完整的样本会被剔除,但同时这也导致了部分信息被浪费。针对删失数据,生存分析理论是现今非常有效的手段;生存分析理论把观测时点的状态纳入模型
学位