P值的不稳定性与其他因素对统计特征选择的影响

来源 :天津大学 | 被引量 : 0次 | 上传用户:okmijnuhbygvtfcrdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一门结合了生物科学、计算机技术以及数学等方面知识的新兴交叉学科,随着生物科学和计算机科学的迅速发展,生物信息学在信息的收集、处理、分析、推断等方面取得了巨大的进步。生物信息学的研究内容主要包括基因组学和蛋白质组学。对于基因组学,基因芯片、分子克隆、PCR扩增、全基因组测序等重大技术的进步在基因测序、基因注释以及有机体基因组研究等方面做出了突出贡献;对于蛋白质组学,液相色谱质谱联用技术在蛋白质的鉴别和定量等方面已相当成熟。基因组学和蛋白质组学也在此基础上迅猛发展,受到越来越多的关注。技术的进步为生物信息学研究提供了大量全面而复杂的数据,在这些数据中快速准确地识别出有显著性差异的或者有意义的变量对生物医学以及临床医学的发展是至关重要的,这些变量在生物标志物的鉴定、药物的靶向预测、表现型特征识别以及疾病的治疗等方面有极大帮助。因此,近些年比较基因组学和比较蛋白质组学激起了研究人员的极大兴趣。科学研究人员试图在高通量的数据分析中筛选出有显著性差异的变量,并且寄希望于所选变量是有实际应用价值的,这个过程就是特征选择。统计检验的方法可以用于筛选有意义的变量(基因或者蛋白质),在比较基因组学和比较蛋白质组学中得到了广泛的应用。最为常用的统计检验方法是假设检验,例如:T检验和威尔科克森符号秩和检验等。在假设检验中,数据分析人员预先设定一个显著性水平(0.05或者0.01),根据检验所得P值是否低于预设的显著性水平来判断该变量的显著性。但是近期有研究表明T检验的P值是极其不稳定的,同时其所估计的效应值也偏大。在该研究中,为进一步探究P值的不稳定性,以及其他统计方法中P值的变化情况,我们分析了T检验(参数检验)和威尔科克森符号秩和检验(非参数检验)的P值和效应值在多种测试环境下的变化情况。我们模拟了多种不同类型的数据分布情况,包括正态分布,泊松分布,指数分布以及混合分布(即两组比较数据的分布是不同的),同时在每种测试条件下模拟了不同样本容量的数据。用这两种特征选择方法检验该模拟数据,以观察P值和估计效应值情况的。研究结果表明,在T检验中,随着测试样本容量的增加,估计效应值将逐渐接近真实的效应值,但其相应的P值并为因样本增加而变稳定,仍然存在很大的变化范围。即使在高效应值和大样本容量的条件下,其P值不稳定性的问题也未得到改善。这些现象也存在于威尔科克森符号秩和检验的结果中,说明P值的不稳定性是一个普遍的问题。通常我们认为T检验只适用于正态分布数据,但我们低估了T检验的能力,实验结果表明即使在非正态分布的情况下,T检验依旧具备很强的能力,甚至比威尔科克森符号秩和检验更加出色。由于P值极其不稳定,且不能够准确地预测效应值,所以在多重变量的分析中根据P值的排名情况来选择有显著性差异的基因或者蛋白质或许不是一种最优选择。在该研究中,这个猜想得到了进一步的证实。我们收集到一个真实的肾癌实验数据,该数据包括实验组(肾癌患者)和对照组(正常人),每组包含12个样本。用T检验测试该数据,并根据变量的P值排名选出最具显著性差异的前500个蛋白质变量(Top 500),然而Top 500中所选的变量是及其不稳定的。该现象证明即使P值在多重变量特征选择的统计推断中被广泛应用,但是P值不是一个值得信赖的稳定的指标,我们应避免根据P值来选择具有差异性表达的基因或者蛋白质的方法,该方法不能保证实验结果的稳定性或者重复性。可重复的研究结果是科学研究方法的基础,为后续的研究和发展提供结果验证的可能性。但是,许多发表的研究结果都很难以复制,近些年来该现象在学术界引起了广泛的关注和讨论。讨论的内容主要集中在三方面:1)统计报告结果的透明性;2)统计能力的水平(足够的统计能力以检测到真实的效应值);3)判断变量是否具备显著性差异的标准。P值的不稳定性是导致研究结果缺乏重复性的最主要和最根本的原因之一。然而,不稳定性是P值的自然属性,在统计分析和推断的过程中,这是一个不可避免,且也不易解决的问题。相比于研究P值自身的不稳定性,我们更应该关注P值在统计分析及推断的过程中的变化规律,以及P值变化与估计效应值之间的联系。理论上,在样本容量较小或者实验数据变异性很大的情况下效应值是不稳定的,同时我们认为与之相对应的P值也是易变的。但在实际分析中,情况截然不同。该研究中,我们模拟两种测试条件:原假设为真(效应值为0)以及备择假设为真(效应值不为0),且每种条件下数据包含多种样本容量。用T检验来测试该模拟数据,以观察P值在不同样本容量时的变化情况,以及P值的变化与效应值之间的联系。研究结果表明,在原假设为真时,随着样本容量的增加,T检验的估计效应值会逐渐接近真实的效应值即0,但是P值的变化范围并未减小,且均匀地分布于0和1之间,该现象说明测试结果中有假阳性结果;在备择假设为真时,随着样本容量的增加,T检验的估计效应值会逐渐接近真实的效应值,同时P值的变化范围依旧很大。此外,在备择假设为真时,T检验对真实效应值的检测能力会随样本增加而提升,即会有更多变量呈现出显著性(其P值低于显著性水平),然而其P值的分布范围并为缩小;且随着效应值的增加,P值的变化量级也随之增加。该结果进一步证明了用P值来评价效应值是不可行的,P值越小并不代表其对应的效应值越大,同时提示我们效应值也是一种可用于判断基因或者蛋白质是否具有显著性差异的有效方法。过分追求准确的P值是无意义的,我们应该更加关注统计算法的能力(准确识别出真实效应值),即P值是否低于预设的显著性水平。特征选择方法能力的增强可以有效地降低P值对结果重复性的影响。一方面,增加测试的样本容量可以显著性提高特征选择方法的能力即使其P值极不稳定;另一方面,减小测试误差对提高特征选择方法的能力也有极大的帮助。样本的有效性、实验平台(或仪器)的兼容性会限制样本的容量,同时后续样本的增加可能会引入偏差,偏差在数据处理时不易被去除,这些因素表明样本容量的增加是非常困难的。减小测量误差就意味着需要技术的进步,也是不易实现的方法。鉴于增加样本容量和减小测量误差这两种途径在实验过程中都是不易达到的,我们应考虑其他方式来提高特征选择方法的能力。信号增强转化技术和网络算法可以实现提高统计特征选择能力的目标,信号增强转化技术可以通过提高信噪比来提升统计特征选择方法的能力;而在网络算法中,同一个蛋白质复合物中蛋白质之间的自动校正能力得到充分利用,从而可以帮助提升统计分析方法的能力。此外,在特征选择的统计分析过程中,研究人员可以借助一些其他的数据指标(例如:置信区间、交叉验证的准确性、效应值、P值的变化区间等)与P值相结合从而做出更为准确的决定。在统计特征选择方法的研究中,由于其多样性以及在比较基因组学和比较蛋白质组学中的广泛应用,许多研究人员致力于评价统计特征选择方法能力的研究,通过比较几种算法的表现试图找到一种最优的方法。但是这种类型的评价研究存在一些被忽视的问题。真实的生物信息数据分析过程是极为复杂的,包括前期的数据处理方式、统计算法的选择、以及后期的结果校正方法等多个步骤。以单变量统计特征选择方法为例,最简单且最典型的分析过程主要包括三步:1)数据标准化方法的选择;2)单变量统计算法的选择;3)分析结果校正方法的选择。这些因素在实际分析中易被忽视,但或许会影响统计算法的表现,进而影响统计算法间的比较和评价。此外,不同的评价研究中会用不同的数据,这些数据的异质性互不相同,或许也会对算法的表现产生不同程度的影响。为了探究这些潜在因素对统计算法评价研究的影响,我们进行了一系列测试。在该研究中,我们模拟了三组不同分布(正态分布、泊松分布、二项分布)数据,每种类型的数据包含多种样本容量;同时我们也收集了30个不同样本容量的真实的基因组学数据。我们基于模拟数据和真实数据测试了5种常用的单变量统计特征选择方-T检验、威尔科克森符号秩和检验、Limma、Rank product、KS-检验,并比较了这五种方法在三种不同处理过程中的表现情况。三种不同处理过程分别为:1)三种不同的数据标准化处理方法-Z-normalization,Linear scaling,Quantile normalization;2)四种不同的多重测试结果校正方法-错误发现率、Bonferroni校正、Hochberg校正、Hommel校正;3)在模拟数据和真实数据中插入不同的效应值来模拟多种异质性水平的数据。实验结果表明数据标准化的处理方法对数据分析结果有直接且显著的影响;多重测试结果校正方法对统计算法敏感度也有不同程度的负面影响;同时数据的异质性水平也会对统计算法的能力产生干扰。因此,在对统计方法的表现进行评价或者比较时,应充分考虑这些潜在的干扰因素。然而,在现存的评价或者比较研究中,大部分研究人员没有充分考虑这些影响因素。首先,对于不同的数据标准化方法,其去除噪声和保留有意义变量的方式不同,因此数据经不同标准化方法处理后其变量会发生不同的改变,导致研究结果的不一致性;其次,对于多重测试校正方法,Bonferroni校正方法较为严格,而错误发现率等是相对宽松方法,所以不同的校正方法对假阳性概率的控制程度不同,对算法敏感度的削弱程度也不同,在评价统计算法的能力时用不同的校正方法是有失公允的;最后,真实的生物数据是及其复杂多变的,数据的分布、异质性等因素多无法预测或控制,所以依据某一个或者某一类数据来判断统计算法的表现是无意义的。在当今众多的评价研究中没有一个通用的比较体系,既缺少统一的比较或评价标准,从而导致评价研究结果不具有普遍性,是无意义的。在该研究中,我们首先讨论了P值的不稳定性,以及其在统计特征选择方法中的普遍性,同时验证了P值的变异性对多重变量分析的影响–所选的有显著性差异的变量是不稳定,进而导致实验结果的低重复性。提高统计特征选择方法能力有助于获得稳定的、可重复的研究结果,我可以通过信号增强转换技术、网络算法、以及其他一些辅助指标如:效应值、置信区间、交叉验证等方式来提高统计方法的能力以获得可重复的研究结果。最后,在复杂的生物数据分析的过程中,我们应充分考虑易被忽视的因素–数据标准化方法、多重测试校正、异质性等问题,以保证研究结果的可靠性和普遍性。
其他文献
民国时期,江苏政府召开会议,通过议案,颁布了一系列的政策法规,推动了从传统教育向新式教育的转型。本文以民国时期江苏师范教育政策为研究对象,采用历史研究法、文献分析法、比较法三种研究方法,揭示了不同时期江苏师范教育的政策制定背景、政策内容以及实施效果。绪论主要对研究的相关概念,即时间、地点、师范教育及师范教育政策,进行界定,并且总结了研究现状,主要包括:对中国师范教育做历史性论述、对不同性质及不同区
在经济社会转型期,我国基层农科专业人才资源配置面临着失衡困境。地方政府适时推出农科专业定向招生政策具有现实价值,其价值选择基础在于应对基层农业技术推广队伍建设的困
在经历了以投资驱动和增量发展为主的阶段后,我国城市进入以转型为发展思路、以存量空间资源为载体的发展阶段。按照新型城镇化的要求,未来应在有限的空间范围内进行城乡建设
用共价修饰法制备了银纳米修饰电极,通过透射电子显微镜(TEM)、紫外可见光谱和电化学交流阻抗谱进行了表征和研究.实验表明,该修饰电极对烟酰胺腺嘌呤二核苷酸(NADH)的电化学氧化
目的探讨品管圈(QCC)活动缩短医保患者平均住院日的效果。方法成立品管圈,遵循PDCA循环方法,以“缩短医保患者平均住院日”为主题,进行现状调查,设定目标,分析要因,制定对策并进行效
目前,随着高速铁路列车运行速度越来越快,对铁路轨道质量提出了更高的要求。为了确保高速铁路轨道的安全使用,在新线铺设、检查施工精度以及铁路轨道后期维护等方面,需要对轨道状态进行检测。传统的人工拉线检测方式,已经无法适应当前高速铁路的迅速发展,而使用大型轨检车进行轨道检测也由于成本和调度困难等原因无法大规模的应用。因此,研制一套轨检小车检测系统应用于轨道检测,对于提高轨检效率,改善检测精度,减少轨检成
再制造已经成为工程机械行业未来发展的重要方向,对缓解经济发展与环境资源的矛盾具有积极作用。本文运用AHP(层次分析法)方法,从九个因素方面构建了工程机械再制造逆向物流
创新性的提出了钢筋混凝土拱桥的一种新的加固技术方案.首先对体外预应力加固钢筋混凝土拱桥的思路、方法、施工工序进行了阐述,进而对加固的原理、计算要点做了说明,最后通
农杆菌是一类生长在土壤中的植物病原菌。根癌农杆菌感染植物细胞后,会扰乱细胞分裂而使其发生癌变。农杆菌介导的遗传转化是植物转基因的首选方法,但其转化效率低和转化结果
越窑是唐宋时期南方青瓷生产的著名窑口,从东汉青瓷创烧以来,越窑青瓷不断发展,至唐代与邢窑共有"南青北白"的称号。唐代是越窑青瓷发展成熟的重要时期,在国力强盛、对外贸易