论文部分内容阅读
纵向数据是对观测样本按时间顺序或空间顺序追踪感兴趣信息得到的一类数据,样本中每一个观测个体在不同时间点或不同实验条件下进行了多次测量,所以数据既有时间序列数据的性质又有截面数据的特点。纵向数据分析的一种重要研究工具是增长曲线模型,它在一般的多元线性模型之上引入已知的组别设计矩阵实现了对观测个体纵向趋势的组别控制,该模型有着两大优势:第一,增长曲线模型是一种参数统计方法,由其所得的统计推断结果更为精准;第二,一般来说增长曲线模型给出的参数估计具有简明表达式,这使得它在实际应用中简单易操作。也因为这些原因,增长曲线模型在经济、生物、医疗和流行病等方面有着广泛的应用。在增长曲线模型的研究领域中,已经有许许多多的研究在关注模型参数估计的问题,但是这些研究大多集中于估计效果的改良,而对原生模型结构中的一些狭义设定尚未进行讨论,本文主要针对几个十分重要的模型结构问题展开研究。研究中拓展了增长曲线模型的两个重要结构假设,首先把组别矩阵从已知修改为未知,然后将协方差矩阵从无结构修改为有结构。一方面,增长曲线模型中的组别设计矩阵并非总是可知的,在实际数据当中表现为一些纵向观测个体接受过什么处理或具有哪些特征并不清晰明朗,因此组别设计矩阵已知的严格设定限制了增长曲线模型在这一类问题中的应用。另一方面,增长曲线模型中的协方差矩阵可能具有某种特殊结构,在具体分析当中体现为多次纵向观测之间明显地存在着一种特定的相关关系,然而协方差矩阵无结构的粗略设定使增长曲线模型忽视了纵向数据中的重要特征信息。因此,为了能合理地构建统计分析模型,并能充分地提取纵向数据信息,本文的研究内容围绕着这两个模型假设的拓展展开,先后在两种最为常见的协方差结构(均匀结构、一阶自回归结构)下讨论了组别矩阵随机的增长曲线模型构建,并详细地研究了两个新模型的参数估计。文中的研究方法可归纳为以下五个:1.模型转换,针对不可知的组别矩阵,充分地利用增长曲线模型的先验信息进行先验假定,假设组别矩阵中各列向量服从分类分布,将增长曲线模型转化为类似于混合分布模型的形式,通过这样的随机混合转化得到了混合增长曲线模型;2.模型精简,针对具有特定结构的协方差矩阵,将关注的两种协方差矩阵代回混合增长曲线模型的定义中简化待估参数,得到了两种精简的特定协方差结构混合增长曲线模型;3.EM算法,利用EM算法来解决模型估计过程中始终无法绕开的未知信息难题,顺利对两种全新的精简模型进行了参数估计;4.退化验证,通过在新模型之中代入已知的组别矩阵研究了新模型的退化问题,进而推论了组别矩阵已知的特定协方结构增长曲线模型与本文提出的特定协方差结构混合增长曲线模型的关系;5.计算分析,分别通过大量的模拟计算分析和实际数据分析验证了所提出的两种新精简模型的参数估计效果。本文的研究结论可总结为以下四项:1.提出了均匀协方差结构下的混合增长曲线模型和一阶自回归协方差结构下的混合增长曲线模型;2.获得了这两种全新精简模型的参数极大似然估计;3.推论了组别矩阵已知的特定协方差结构增长曲线模型就是本文所提出的特定协方差结构之下混合增长曲线模型的特例,换而言之,证明了本文提出的两种模型是相应的特定协方差结构增长曲线模型的广义形式;4.验证了两个新精简模型不仅拥有优良的估计效果,还有着高效的聚类能力。本文的研究贡献可概述为以下三条:一是推广了增长曲线模型,新混合增长曲线模型为实际分析中纵向数据具有增长趋势却无法获得组别信息的这类问题提供了研究途径;二是证明了纵向观测的不同协方差结构对模型估计存在重要影响,特定协方差结构的混合增长曲线模型为具体分析中纵向观测间具有相关关系的这类数据提供了分析方法;三是实现了纵向数据聚类,混合增长曲线模型为曲线聚类分析提供了新工具,形象来说其参数估计中对随机组别矩阵的估计即是曲线判类。