论文部分内容阅读
本文主要对由各种随机变量产生的自回归时间序列的各类极限性质进行了讨论.就参数估计和非参数估计方面的问题做了相关的研究.作为一种时间序列的应用,本文还最生物信息学中近几年比较热门的全基因组单核苷多态性阵列的拷贝数相关问题作了探讨.本文的第一章,研究的是相依时间序列中的单位根问题.第二节证明了在单位根假设下,利用自回归系数的最小二乘估计所构造的单位根检验统计量的极限分布,可以利用对残差进行bootstrap再抽样来逼近.第三节又进一步考虑了在均值带有变点时,Dickey-Fuller单位根统计量的极限分布.证明了自归回系数估计量的收敛速度可以提高到Op(n-3/2).同时,我们构造了检验的F统计量,证明了其在变点假设下的极限性质.当变点前后的均值未知时,还给出了它们的相合估计.前两节的相依性假设对一类广泛的相依变量均能够满足,如一般的混合序列,正相伴或负相伴序列等等.第四节讨论了高阶自回归模型,当误差项是GARCH过程时,在单位根假设下和较弱的矩条件下,得到带漂移项和不带漂移项的自回归序列自正则统计量的极限分布.本文的第二章,讨论了高阶自回归模型的非参数估计的极限性质.第二节在不对核函数加任何尾条件限制下的,证明了核密度估计的Lr范数收敛性.并且在论证的过程了,得到了关于随机变量的一系列矩不等式.第三节讨论了分位数自回归模型在残差是厚尾的假设下,用自加权分位数估计法求得自回归系数的估计,并证明了其渐近正态性.并且讨论了回归系数具有线性约束性假设下,Wald检验统计量的极限分布.受第一章单位根过程研究的启发,本文的第三章将相关的讨论应用于一列带迁徒变量的分枝过程中.在子孙后代的均值渐近临界状态下,提出了新的参数估计方法.证明了渐近临界状态下,子孙后代均值的最小二乘估计是Winner过程泛函的逼近,具有收敛速度为Op(n-1)渐近正态性.这章的第三节讨论了均值估计的bootstrap再抽样分布,证明了均值最小二乘估计的统计分布可以由bootstrap再抽样的最小二乘估计的分布来逼近.本文的最后一章主要是基于骨髓综合症(MDS)单核苷多态性(SNP)检测芯片的生物信息学的研究.这章的第二节是骨髓综合症SNP阵列数据的势分析.我们将病人的血球细胞分类进行讨论.通过滑动平均的算法和局部线性归回的修正,对检验所需的样本容量给出一个估计.在势分析估计样本容量和病情等级区分的预后处理中,我们提出了风险得分函数和综合变异水平两个指标,检验的结果得到遗传分析结果的支持.同时上述指标的提出,对MDS病情等级的区分也是一个很好的应用.第三节基于条件随机型模型,对SNP阵列的拷贝数进行推断,和传统的隐马尔科夫模型相比,我们充分利用了局部邻域内的SNP信息来作统计推断.第四节讨论经核函数光滑化的SNP信号数据的峰值检测.引进混合模型来处理SNP拷贝数有突变的检测,对于模型中的参数,主要用贝叶斯估计和可逆跳马尔科夫蒙特卡洛算法自动执行.