缺失纵向数据下模型的选择与参数估计

来源 :云南大学 | 被引量 : 0次 | 上传用户:yellowuncle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当代科技的高速发展,纵向数据频繁出现在金融学、医学、化学及生物学等相关领域。所谓纵向数据一般是指不同个体在不同时间点观测或记录的数据,通常假定个体之间独立,同一个体组内数据相关。然而在实际应用中,尤其是“大数据”技术的兴起,观测或记录的纵向数据存在缺失,譬如:单细胞RNA数据,全国性人口普查,新药的治疗效果等,因此研究缺失纵向数据下模型的选择与参数估计是有现实意义的。本文讨论的两个核心问题是,纵向数据组内相关性及缺失数据的处理。纵向数据组内相关的处理方法包括广义估计方程(GEE),二次推断函数(QIF),非参移动分块三种;缺失数据的处理方法包括通过矩阵分解直接对数据填补,传统的逆概率加权,部分插补估计方程,增广逆概率加权四种。从维数p的角度,本文研究的缺失纵向数据包括固定维数据缺失,高维数据缺失及超高维数据缺失。模型包括广义线性模型、广义部分线性模型及部分线性变系数EV模型。同时,本文也研究了无模型假定下超高维缺失纵向数据的变量筛选问题。本文主要内容包括:1、基于广义线性模型,在协变量样本数据随机缺失下,研究带有混合结构的纵向数据的模型估计问题。本文先利用加权稳健的非负矩阵分解(WNMFP)方法插补缺失数据,然后利用伪似然和广义估计方程的方法,针对插补完全后的数据构造基于广义线性模型的估计方程估计待估参数。研究证明加权稳健非负矩阵分解(WNMFP)方法的收敛性,在一定的正则条件下,参数估计量的相合性及渐近正态性。同时模拟比较有限样本性质,结果显示当数据缺失率较高时,本文提出的插补方法更有效且具有一定的稳健性。2、基于广义部分线性模型,在响应变量样本数据随机缺失下,研究高维纵向数据的模型变量选择和估计问题,提出逆概率加权光滑域二次推断函数变量选择方法。光滑域方法可以同时进行变量选择和非0系数的估计,避免传统惩罚方法中,目标函数凸优化问题,且计算较为简单。为避免GEE方法中错误估计工作协方差矩阵的讨厌参数,而引起的参数估计有偏或失效,引入二次推断函数方法处理纵向数据个体组内相关,逆概率加权方法处理缺失数据。研究证明,在一定正则条件下,“大n,发散p”框架下广义部分线性模型变量选择的Oracle性质。随机模拟结果显示所提出方法有较好的有限样本性质。3、基于模型自由的假定,在响应变量样本数据随机缺失下,研究超高维纵向数据的特征筛选问题,提出基于“局部”信息流部分插补非参数特征筛选方法。该方法同时考虑了缺失数据及预测变量关于响应变量对称的问题。研究证明,在一定正则条件下,“大p,小n”框架下,即变量个数p随样本量n增大呈指数级增长,所提出的方法具有“确定筛选性质”。随机模拟结果显示提出的方法可以有效地选出活跃变量。4、基于部分线性变系数EV模型,在响应变量样本数据随机缺失下,提出增广逆概率加权的移动分块经验似然方法。该方法从数据出发,利用移动分块的非参思想处理纵向数据组内相关性,增广逆概率加权估计函数处理缺失数据。研究证明,在一定正则条件下,提出的统计量依分布收敛于卡方分布,因此可以有效构造待估参数的区间估计。随机模拟结果显示提出的方法具有更短的置信区间长度。
其他文献
现如今,等离激元光学已经成为非常有前景的、涉及多个学科交叉的研究领域和技术前沿。随着微纳加工技术和化学合成技术的不断发展,人们可以在纳米尺度上对结构的组成单元、几何参数和空间分布进行调控。在复杂的等离激元微纳结构中,等离激元谐振模式会同结构或谐振腔内的其它光学模式相互耦合形成新的谐振模式。通过对结构的设计和对参数的定向优化,这些谐振模式会具有更加新颖的光学效应和共振特性。例如,更低的损耗,更强的局
在室内或地下多层封闭场景因无法获取全球导航卫星系统(GNSS)信号,导致精确的导航与位置服务应用面临困难与挑战。与源自机器人技术的基于视觉的同步定位与测图(Visual SLAM)算法相比,基于激光雷达的同步定位与测图(LiDAR SLAM)算法因其不受室内场景光照条件影响,成为一种室内导航与位置服务应用的可行手段。近几年,采用低成本双激光雷达传感器与全景数码相机配置的激光雷达背包,展示了其在室内
红外光谱仪是利用物质对不同波长的红外辐射的吸收特性,进行分子结构和化学组成分析的仪器,根据分光装置的不同,分为色散型和干涉型。目前,实验室普遍使用的都是体积较大和价格高昂的台式干涉型傅里叶红外(Fourier Transform Infrared,FTIR)光谱仪。小型化和低成本是当前红外光谱仪发展的的一个主要趋势。更快速、更可靠、更低廉的便携式红外光谱仪有可能在未来进入家庭市场,满足人民对居住环
随着人类对电脉冲的认识与应用的不断发展,电脉冲对于生命体产生的影响受到越来越广泛的关注。其中,短脉宽电脉冲由于其频率高,强度大等特点,能够有效穿过细胞膜,作用于细胞内部,因此,对于不同参数电脉冲引起的细胞内效应及其应用成为近年来生物电磁领域的研究热点。目前,短脉宽电脉冲已经能够作为一种直接或者间接的治疗手段,对多种疾病,特别是肿瘤进行治疗。然而,目前对于其作用效果的研究依然不够深入,并且在肿瘤治疗
近年来,随着全球老龄化趋势加剧、人口的剧增、社会生活环境的改变等因素使得全球癌症的发病率和死亡率呈快速上升的趋势,全球癌症负担进一步加重。据2018年全球癌症流行病学统计数据显示,2018年全球癌症新发病例高达1810万,死亡病例高达960万。因此,对癌症的早诊、早治和综合干预已成为现阶段全球在癌症防控领域的重要任务。传统的癌症治疗手段,如化疗和放疗等存在副作用大、无法有效控制晚期恶性肿瘤的进展和
学位
和频光谱(sum frequency generation,SFG)是二阶非线性光谱,具有表界面选择性和较好的时间分辨能力,被广泛用于研究表界面物种吸附、取向、排列方式及振动弛豫等结构和动力学信息,也可以研究界面电子结构、界面电荷转移等界面电子信息。硫化镉(CdS)是宽带隙直接半导体材料,可被用作降解木质素等生物大分子光催化剂。以2-苯氧基-1-苯乙醇(2-phenoxy-1-phenyletha
随着数据收集技术的快速发展,很多领域的研究者用较低的成本可以获得大量的超高维数据,在超高维数据分析中,预测变量的个数p随着样本量n的增加呈指数增长,但只有少数预测变量对响应变量有显著影响,这一点已经众所周知.为此,统计学家们提出了许多边际特征筛选的方法.但是在实际应用中,由于各种原因,缺失数据经常出现在经济学、社会学、生物医学、市场调研等很多领域中,近年来,缺失数据模型的统计推断引起了许多学者的关
在现代软件开发实践中,并发编程随着计算机硬件CPU内核数的不断增长而蓬勃发展。最近一项针对2227个实际Java开源项目的研究发现其中75%的项目都涉及到并发。但是由于多线程执行的不确定性和复杂性,并发编程也引入了如数据竞用、死锁、原子性违例等并发错误,而这些并发错误往往难以被发现和重现,降低了并发程序的质量。研究者提出了多种并发错误的检测和重现技术,但是由于存在以下两方面的问题,相关研究成果并没
科学仪器的发明与使用以及仪器方法的开发对现代科学发展起到了十分关键的作用。新型的仪器方法有助于研究者发现新的实验现象与证实新的理论,并最终能够推动科学技术的进步与相关工业领域的前进。能源的开发、利用与污染环保等问题成为了近年来多国政府与企业研究机构最为关心的问题之一。随着国际能源问题的日益突出,各国政府给予了可再生能源与新能源高度重视,并加大了能源相关领域的资源投入,燃料电池、锂离子电池、锂空气电