论文部分内容阅读
【摘要】以2016年全国研究生数学建模竞赛B题“遗传性疾病和性状的遗传位点”提供的数据,按照1∶1的病例对照设计,运用Pearson卡方检验和病例组与对照组的碱基差异的正态分布情况各选取出24个可能的致病位点.将两种方法选取出的24个可能的致病位点与300个基因进行全基因组关联分析,找出最有可能的致病基因.
【关键词】遗传位点;Pearson卡方检验;正态分布检验;全基因组关联分析
【基金项目】四川省教育厅自然科学项目(14ZA0132)、西华师范大学科研基金(13E022).
一、研究背景
人类某些遗传疾病由某些特定位点的核苷酸发生变异引起[1],遗传疾病分为单基因疾病和复杂性疾病.SPNs是研究基因多态性和识别疾病相关基因的一种工具[2],孙志伟等人提出了一种快速的致病基因分析方法及算法FADG[3],并指出差异最大的SNP位点就是致病位点.人类基因组计划[4]成功测序,也促进了人类利用遗传标记SPNs对复杂性疾病进行全基因关联分析.全基因组关联分析[5]是应用人类基因组中大量的单核苷酸多态性为标记进行病例对照设计研究的关联分析.数据源于2016年全国研究生数学建模竞赛B题“遗传性疾病和性状的遗传位点”,其病例组和对照组的设计上采用随机抽样和1∶1的比例进行匹配,这种设计方式符合病例对照设计[6],它是遗传病抽样设计中简单常用的匹配方式[7].
二、位点编码信息的数据处理
图1位点分布图
以位点rs3094315为例,先将3种碱基对(TT,TC,CC)分别转化为数值(22,23,33),在各位点上取出最大的编码记为2,最小的记为0,其他的记为1,统计出对照组和病例组各位点处3种基因型的数目.在处理碱基编码信息时,认为碱基的编排顺序不同则基因型不同,由两种不同的碱基组成的相异的基因型有12种,即AT、AC、AG、TA、TC、TG、CA、CT、CG、GA、GT和GC.从9 445个位点中选取最有可能的致病位点,由MATLAB编程画出位点的分布情况如图1所示,从图中可知选择致病位点有一定的难度,故用计算来选取致病位点.
三、Pearson卡方检验选取致病位点
Pearson卡方检验方法[8]可表示成,
χ2=∑ni=1(Qi-Ti)2Ti.(1)
其中,Qi是病例组在各位点第i类碱基对的观测频数,Ti是对照组在各位点第i类碱基对的理论频数.卡方检验的显著标准设置为α=10-6,自由度为n-1=2,得到χ2临界值为27.631 0.以此为标准,用MATLAB编程选卡方值大于临界值的32个位点.序号为8 258和8 496这两位点,χ2值无穷大,遗传学上可理解为未患该疾病的人群中不存在CC这种碱基对,可认为该位点的患病概率较大.
卡方检验选出的32个可能的致病位点中,AT、TA、CG、GT和GC碱基组成类型未出现,但未必说明致病位点不含它们.根据各类型碱基组成在9 445个位点中所占频数,按一定的比例选出可能的致病位点,如,AC、AG、TC、TG、CA、CT、CG按照1∶4∶4∶1∶1∶4∶4进行选择,通过MATLAB编程运行得到可能的24个致病位点,见表1.
四、按差异的分布选取致病位点
由A、T、C、G互异碱基组成的基因型共有12种,在各类型中计算出对照组与病例组的3种基因型的平均差异,再分析病例组碱基对距离平均差异值的分布情况,从分布情况角度选取致病位点.计算12种基因型各自的平均差异公式为
V=∑mj=1∑ni=1(Qi-Ti)m.(2)
其中,Qi是病例组在各位点第i类基因型的观测频数,Ti是对照组在各位点上第i类基因型的理论频数,n为各位点的基因型数,即n=3,m为12种互异碱基组成的基因型在9 445个位点中出现的位点个数.由MATLAB编程运行得到12类互异碱基组成的基因型平均差异.
判断病例组碱基对距离平均差异值的分布情况,以CA类型为例,根据(2)式得出对照组与病例组在各位点碱基对AA、CA和CC的差异个数,分别用向量S0,S1,S2来表示.将上述数据S0,S1,S2导入IBM SPSS Statistics 20中,进行如下操作步骤:分析、描述统计、Q-Q图、选择正态分布检验,得到3种碱基对的正态Q-Q图,如图2所示.若碱基对AA、CA和CC的差异个数服从正态分布,则CA类型碱基对的差异数也服从正态分布[9].
图2AA碱基对Q-Q图
MATLAB工具箱提供了ttest函数[10]对未知标准差的某正态分布的均值进行检验,调用格式为:h=ttest(x,m,alpha,tail).其中,x为待检验的样本,alpha为显著性水平,在这里alpha取默认值0.05,tail为备择假设.原假设为:h0∶μ=μ0=m.
当tail=0时,表示备择假设h1∶μ≠μ0=m,tail=0为默认的双边检验.
当返回值h=0时,表示在显著性水平alpha下,不能拒绝原假设,即符合均值为m的正态分布,当h=1时,表示在显著性水平alpha下,可拒绝原假设,即不服从均值为m的正态分布.
经检验,病例组各碱基组成类型均符合均值为待检验均值的正态分布,在均值附近选择选取可能致病位点,12种碱基对组成类型按照1∶1∶4∶1∶4∶1∶1∶4∶1∶4∶1∶1选取,由MATLAB编程运行得出的24个可能致病位点见表2.
五、两种选取致病位点方法的比较及结论
Pearson卡方检验法侧重找出病例组与对照组差异较大的作为可能的致病位点,而分类按碱基对差异服从的正态分布选取侧重找病例组与对照组差异的平均.若样本容量小,则优先选用卡方检验法选取,若样本容量较大且碱基对数目的差异服从正态分布,则用后一种方法选取致病位点.用全基因组关联性分析选出了可能的致病基因,见表3.
【参考文献】
[1]凃欣,石立松,汪樊等.全基因组关联分析的进展與反思[J].生理科学进展,2010,41(2):87-94.
[2]孙志伟,单渊博,蔡润身等.快速的致病基因分析方法[J/OL].计算机工程与应用,http://www.cnki.net/kcms/detail/11.2127.TP.20160929.1618.004.html.
[3]刘翠兰,胡家伟.单核苷酸多态性研究进展及法医学应用前景[J].中国法医学杂志,2001,16(s1):58-59.
[4]International Human Genome Sequencing Consortium.Initial sequencing and analysis of the human genome[J].Nature,2001(409):860-921.
[5]严卫丽.复杂疾病全基因组关联研究进展——遗传统计分析[J].遗传,2008,30(5):543-549.
[6]陈树昶.病例对照研究的设计原理及其进展[J].疾病控制杂志,2004,8(1):56-59.
[7]袁敏.关联分析中的统计方法研究——基因模型选择及稳健检验[D].合肥:中国科学技术大学,2009.
[8]茆诗松,王静龙.数理统计[M].上海:华东师范大学出版社,1999.
[9]田禹.基于偏度和峰度的正态性检验[D].上海:上海交通大学数学系,2012.
[10]张德丰,杨文茵.MATLAB工程应用仿真[M].北京:清华大学出版社,2012.
【关键词】遗传位点;Pearson卡方检验;正态分布检验;全基因组关联分析
【基金项目】四川省教育厅自然科学项目(14ZA0132)、西华师范大学科研基金(13E022).
一、研究背景
人类某些遗传疾病由某些特定位点的核苷酸发生变异引起[1],遗传疾病分为单基因疾病和复杂性疾病.SPNs是研究基因多态性和识别疾病相关基因的一种工具[2],孙志伟等人提出了一种快速的致病基因分析方法及算法FADG[3],并指出差异最大的SNP位点就是致病位点.人类基因组计划[4]成功测序,也促进了人类利用遗传标记SPNs对复杂性疾病进行全基因关联分析.全基因组关联分析[5]是应用人类基因组中大量的单核苷酸多态性为标记进行病例对照设计研究的关联分析.数据源于2016年全国研究生数学建模竞赛B题“遗传性疾病和性状的遗传位点”,其病例组和对照组的设计上采用随机抽样和1∶1的比例进行匹配,这种设计方式符合病例对照设计[6],它是遗传病抽样设计中简单常用的匹配方式[7].
二、位点编码信息的数据处理
图1位点分布图
以位点rs3094315为例,先将3种碱基对(TT,TC,CC)分别转化为数值(22,23,33),在各位点上取出最大的编码记为2,最小的记为0,其他的记为1,统计出对照组和病例组各位点处3种基因型的数目.在处理碱基编码信息时,认为碱基的编排顺序不同则基因型不同,由两种不同的碱基组成的相异的基因型有12种,即AT、AC、AG、TA、TC、TG、CA、CT、CG、GA、GT和GC.从9 445个位点中选取最有可能的致病位点,由MATLAB编程画出位点的分布情况如图1所示,从图中可知选择致病位点有一定的难度,故用计算来选取致病位点.
三、Pearson卡方检验选取致病位点
Pearson卡方检验方法[8]可表示成,
χ2=∑ni=1(Qi-Ti)2Ti.(1)
其中,Qi是病例组在各位点第i类碱基对的观测频数,Ti是对照组在各位点第i类碱基对的理论频数.卡方检验的显著标准设置为α=10-6,自由度为n-1=2,得到χ2临界值为27.631 0.以此为标准,用MATLAB编程选卡方值大于临界值的32个位点.序号为8 258和8 496这两位点,χ2值无穷大,遗传学上可理解为未患该疾病的人群中不存在CC这种碱基对,可认为该位点的患病概率较大.
卡方检验选出的32个可能的致病位点中,AT、TA、CG、GT和GC碱基组成类型未出现,但未必说明致病位点不含它们.根据各类型碱基组成在9 445个位点中所占频数,按一定的比例选出可能的致病位点,如,AC、AG、TC、TG、CA、CT、CG按照1∶4∶4∶1∶1∶4∶4进行选择,通过MATLAB编程运行得到可能的24个致病位点,见表1.
四、按差异的分布选取致病位点
由A、T、C、G互异碱基组成的基因型共有12种,在各类型中计算出对照组与病例组的3种基因型的平均差异,再分析病例组碱基对距离平均差异值的分布情况,从分布情况角度选取致病位点.计算12种基因型各自的平均差异公式为
V=∑mj=1∑ni=1(Qi-Ti)m.(2)
其中,Qi是病例组在各位点第i类基因型的观测频数,Ti是对照组在各位点上第i类基因型的理论频数,n为各位点的基因型数,即n=3,m为12种互异碱基组成的基因型在9 445个位点中出现的位点个数.由MATLAB编程运行得到12类互异碱基组成的基因型平均差异.
判断病例组碱基对距离平均差异值的分布情况,以CA类型为例,根据(2)式得出对照组与病例组在各位点碱基对AA、CA和CC的差异个数,分别用向量S0,S1,S2来表示.将上述数据S0,S1,S2导入IBM SPSS Statistics 20中,进行如下操作步骤:分析、描述统计、Q-Q图、选择正态分布检验,得到3种碱基对的正态Q-Q图,如图2所示.若碱基对AA、CA和CC的差异个数服从正态分布,则CA类型碱基对的差异数也服从正态分布[9].
图2AA碱基对Q-Q图
MATLAB工具箱提供了ttest函数[10]对未知标准差的某正态分布的均值进行检验,调用格式为:h=ttest(x,m,alpha,tail).其中,x为待检验的样本,alpha为显著性水平,在这里alpha取默认值0.05,tail为备择假设.原假设为:h0∶μ=μ0=m.
当tail=0时,表示备择假设h1∶μ≠μ0=m,tail=0为默认的双边检验.
当返回值h=0时,表示在显著性水平alpha下,不能拒绝原假设,即符合均值为m的正态分布,当h=1时,表示在显著性水平alpha下,可拒绝原假设,即不服从均值为m的正态分布.
经检验,病例组各碱基组成类型均符合均值为待检验均值的正态分布,在均值附近选择选取可能致病位点,12种碱基对组成类型按照1∶1∶4∶1∶4∶1∶1∶4∶1∶4∶1∶1选取,由MATLAB编程运行得出的24个可能致病位点见表2.
五、两种选取致病位点方法的比较及结论
Pearson卡方检验法侧重找出病例组与对照组差异较大的作为可能的致病位点,而分类按碱基对差异服从的正态分布选取侧重找病例组与对照组差异的平均.若样本容量小,则优先选用卡方检验法选取,若样本容量较大且碱基对数目的差异服从正态分布,则用后一种方法选取致病位点.用全基因组关联性分析选出了可能的致病基因,见表3.
【参考文献】
[1]凃欣,石立松,汪樊等.全基因组关联分析的进展與反思[J].生理科学进展,2010,41(2):87-94.
[2]孙志伟,单渊博,蔡润身等.快速的致病基因分析方法[J/OL].计算机工程与应用,http://www.cnki.net/kcms/detail/11.2127.TP.20160929.1618.004.html.
[3]刘翠兰,胡家伟.单核苷酸多态性研究进展及法医学应用前景[J].中国法医学杂志,2001,16(s1):58-59.
[4]International Human Genome Sequencing Consortium.Initial sequencing and analysis of the human genome[J].Nature,2001(409):860-921.
[5]严卫丽.复杂疾病全基因组关联研究进展——遗传统计分析[J].遗传,2008,30(5):543-549.
[6]陈树昶.病例对照研究的设计原理及其进展[J].疾病控制杂志,2004,8(1):56-59.
[7]袁敏.关联分析中的统计方法研究——基因模型选择及稳健检验[D].合肥:中国科学技术大学,2009.
[8]茆诗松,王静龙.数理统计[M].上海:华东师范大学出版社,1999.
[9]田禹.基于偏度和峰度的正态性检验[D].上海:上海交通大学数学系,2012.
[10]张德丰,杨文茵.MATLAB工程应用仿真[M].北京:清华大学出版社,2012.