论文部分内容阅读
成分数据是仅携带相对信息的多变量观测数据,由组成整体的各个部分的比例或百分比构成。在微生物学中广泛存在着高维成分数据。成分数据由于“非负性”和“定和性”的特征使得其成为特殊的数据集,因此在对其进行统计研究分析中不能盲目地运用传统高维欧式数据的统计方法。如何快速有效地从微生物高维成分数据中寻找出重要的预测变量,是值得深入探讨研究的问题。距离作为研究每对微生物样本之间的度量,在微生物组数据的统计分析中起着重要的作用,分析的结果依赖于距离测量的选择。因此论文以高维成分数据这一特殊数据类型作为研究对象,构建基于偏距离相关的高维成分数据变量选择方法,丰富高维成分数据变量选择方法,且在实际应用方面有一定的研究价值。论文借鉴Li等(2012)提出的基于距离相关的变量选择方法(sure independence screening based on the distance correlation,简称DC-SIS方法)的基本思想,提出一种新的基于偏距离相关的分阶段的高维成分数据变量选择方法(phased sure independence screening based on partial distance correlation,简称PDC-PSIS(Aitchison)方法)。通过数值模拟得出PDC-PSIS(Aitchison)的性能以及对于分组预测变量的筛选效果,并以Xie等(2016)存储在欧洲生物信息研究所中的250名成年双胞胎志愿者的肠道菌群丰度数据为研究对象进行实证分析,探究PDC-PSIS(Aitchison)方法在高维成分数据变量选择的有效性。论文的具体研究内容包括:(1)考虑成分数据的特殊性,论文在基于偏距离相关的未经clr变换的高维成分数据变量选择PDC-SIS(crude)方法的基础上,利用中心化对数比clr变换的度量不变性来消除成分数据定和限制的未迭代的PDC-SIS(Aitchison)方法,然后在此基础上引入成分数据集仅含有数据的相对信息,用含有二维向量的子成分数据取代一维向量作为初始条件向量,并通过逐一增加作为条件向量的子成分的向量维数,不断迭代,对高维成分数据进行变量选择,从而提出PDC-PSIS(Aitchison)方法。(2)通过数值模拟,与视高维成分数据为普通数据的不经变换的直接利用偏距离相关进行变量选择的PDC-SIS(crude)、PDC-PSIS(crude)方法和视成分数据为特殊数据的经过clr变换的单阶段偏距离相关变量选择PDC-SIS(Aitchison)和分阶段的高维成分数据变量选择方法PDC-PSIS(Aitchison)方法进行比较,得出PDC-SIS(Aitchison)、PDC-PSIS(Aitchison)方法的有效性和适用范围。(3)将Xie等(2016)报告的250对成年双胞胎大肠杆菌丰度数据用PDC-SIS(crude)、PDC-PSIS(crude)和PDC-SIS(Aitchison)、PDC-PSIS(Aitchison)方法进行实证分析,并将所得到的结果与利用微生物技术得出的已有研究结果和通过其他线性变量选择方法得出的结果进行分析比较,评估PDC-PSIS(Aitchison)方法的有效性和准确性。研究结果表明:(1)由于PDC-SIS(crude)和PDC-PSIS(crude)方法忽略了成分数据的特性,因此这两种变量选择方法在模型中几乎不能识别出与响应变量有关的重要预测变量。由于PDC-PSIS(Aitchison)同时考虑到成分数据包含的是相对信息,而不是绝对信息,因此该方法在线性或非线性模型中都可以有效地筛选出重要的预测变量,且对分组预测变量也有一定地适用性;当两个随机变量独立时,PDC-PSIS(Aitchison)对于重要预测变量的筛选效果优于PDC-SIS(Aitchison)。(2)PDC-SIS(Aitchison)方法对变量选择的效果主要受到成分数据的成分之间的相关性的影响,因此该方法适用于相关性较大的成分数据集。(3)在成分数据变量选择方法效果的比较中,在维度一定时,PDC-PSIS(Aitchison)方法的变量选择效果随着成分数据相关性的增加而提高,其变量选择效果优于PDC-SIS(Aitchison)和DC-SIS(Aitchison)方法;在相关性一定时,对不同维度的成分数据进行变量选择中,PDC-PSIS(Aitchison)方法始终优于PDC-SIS(Aitchison)和DC-SIS(Aitchison)方法。