基于疾病与基因关联性分析的遗传位点选取

来源 :数学学习与研究 | 被引量 : 0次 | 上传用户:gzhguozhihong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】以2016年全国研究生数学建模竞赛B题“遗传性疾病和性状的遗传位点”提供的数据,按照1∶1的病例对照设计,运用Pearson卡方检验和病例组与对照组的碱基差异的正态分布情况各选取出24个可能的致病位点.将两种方法选取出的24个可能的致病位点与300个基因进行全基因组关联分析,找出最有可能的致病基因.
  【关键词】遗传位点;Pearson卡方检验;正态分布检验;全基因组关联分析
  【基金项目】四川省教育厅自然科学项目(14ZA0132)、西华师范大学科研基金(13E022).
  一、研究背景
  人类某些遗传疾病由某些特定位点的核苷酸发生变异引起[1],遗传疾病分为单基因疾病和复杂性疾病.SPNs是研究基因多态性和识别疾病相关基因的一种工具[2],孙志伟等人提出了一种快速的致病基因分析方法及算法FADG[3],并指出差异最大的SNP位点就是致病位点.人类基因组计划[4]成功测序,也促进了人类利用遗传标记SPNs对复杂性疾病进行全基因关联分析.全基因组关联分析[5]是应用人类基因组中大量的单核苷酸多态性为标记进行病例对照设计研究的关联分析.数据源于2016年全国研究生数学建模竞赛B题“遗传性疾病和性状的遗传位点”,其病例组和对照组的设计上采用随机抽样和1∶1的比例进行匹配,这种设计方式符合病例对照设计[6],它是遗传病抽样设计中简单常用的匹配方式[7].
  二、位点编码信息的数据处理
  图1位点分布图
  以位点rs3094315为例,先将3种碱基对(TT,TC,CC)分别转化为数值(22,23,33),在各位点上取出最大的编码记为2,最小的记为0,其他的记为1,统计出对照组和病例组各位点处3种基因型的数目.在处理碱基编码信息时,认为碱基的编排顺序不同则基因型不同,由两种不同的碱基组成的相异的基因型有12种,即AT、AC、AG、TA、TC、TG、CA、CT、CG、GA、GT和GC.从9 445个位点中选取最有可能的致病位点,由MATLAB编程画出位点的分布情况如图1所示,从图中可知选择致病位点有一定的难度,故用计算来选取致病位点.
  三、Pearson卡方检验选取致病位点
  Pearson卡方检验方法[8]可表示成,
  χ2=∑ni=1(Qi-Ti)2Ti.(1)
  其中,Qi是病例组在各位点第i类碱基对的观测频数,Ti是对照组在各位点第i类碱基对的理论频数.卡方检验的显著标准设置为α=10-6,自由度为n-1=2,得到χ2临界值为27.631 0.以此为标准,用MATLAB编程选卡方值大于临界值的32个位点.序号为8 258和8 496这两位点,χ2值无穷大,遗传学上可理解为未患该疾病的人群中不存在CC这种碱基对,可认为该位点的患病概率较大.
  卡方检验选出的32个可能的致病位点中,AT、TA、CG、GT和GC碱基组成类型未出现,但未必说明致病位点不含它们.根据各类型碱基组成在9 445个位点中所占频数,按一定的比例选出可能的致病位点,如,AC、AG、TC、TG、CA、CT、CG按照1∶4∶4∶1∶1∶4∶4进行选择,通过MATLAB编程运行得到可能的24个致病位点,见表1.
  四、按差异的分布选取致病位点
  由A、T、C、G互异碱基组成的基因型共有12种,在各类型中计算出对照组与病例组的3种基因型的平均差异,再分析病例组碱基对距离平均差异值的分布情况,从分布情况角度选取致病位点.计算12种基因型各自的平均差异公式为
  V=∑mj=1∑ni=1(Qi-Ti)m.(2)
  其中,Qi是病例组在各位点第i类基因型的观测频数,Ti是对照组在各位点上第i类基因型的理论频数,n为各位点的基因型数,即n=3,m为12种互异碱基组成的基因型在9 445个位点中出现的位点个数.由MATLAB编程运行得到12类互异碱基组成的基因型平均差异.
  判断病例组碱基对距离平均差异值的分布情况,以CA类型为例,根据(2)式得出对照组与病例组在各位点碱基对AA、CA和CC的差异个数,分别用向量S0,S1,S2来表示.将上述数据S0,S1,S2导入IBM SPSS Statistics 20中,进行如下操作步骤:分析、描述统计、Q-Q图、选择正态分布检验,得到3种碱基对的正态Q-Q图,如图2所示.若碱基对AA、CA和CC的差异个数服从正态分布,则CA类型碱基对的差异数也服从正态分布[9].
  图2AA碱基对Q-Q图
  MATLAB工具箱提供了ttest函数[10]对未知标准差的某正态分布的均值进行检验,调用格式为:h=ttest(x,m,alpha,tail).其中,x为待检验的样本,alpha为显著性水平,在这里alpha取默认值0.05,tail为备择假设.原假设为:h0∶μ=μ0=m.
  当tail=0时,表示备择假设h1∶μ≠μ0=m,tail=0为默认的双边检验.
  当返回值h=0时,表示在显著性水平alpha下,不能拒绝原假设,即符合均值为m的正态分布,当h=1时,表示在显著性水平alpha下,可拒绝原假设,即不服从均值为m的正态分布.
  经检验,病例组各碱基组成类型均符合均值为待检验均值的正态分布,在均值附近选择选取可能致病位点,12种碱基对组成类型按照1∶1∶4∶1∶4∶1∶1∶4∶1∶4∶1∶1选取,由MATLAB编程运行得出的24个可能致病位点见表2.
  五、两种选取致病位点方法的比较及结论
  Pearson卡方检验法侧重找出病例组与对照组差异较大的作为可能的致病位点,而分类按碱基对差异服从的正态分布选取侧重找病例组与对照组差异的平均.若样本容量小,则优先选用卡方检验法选取,若样本容量较大且碱基对数目的差异服从正态分布,则用后一种方法选取致病位点.用全基因组关联性分析选出了可能的致病基因,见表3.
  【参考文献】
  [1]凃欣,石立松,汪樊等.全基因组关联分析的进展與反思[J].生理科学进展,2010,41(2):87-94.
  [2]孙志伟,单渊博,蔡润身等.快速的致病基因分析方法[J/OL].计算机工程与应用,http://www.cnki.net/kcms/detail/11.2127.TP.20160929.1618.004.html.
  [3]刘翠兰,胡家伟.单核苷酸多态性研究进展及法医学应用前景[J].中国法医学杂志,2001,16(s1):58-59.
  [4]International Human Genome Sequencing Consortium.Initial sequencing and analysis of the human genome[J].Nature,2001(409):860-921.
  [5]严卫丽.复杂疾病全基因组关联研究进展——遗传统计分析[J].遗传,2008,30(5):543-549.
  [6]陈树昶.病例对照研究的设计原理及其进展[J].疾病控制杂志,2004,8(1):56-59.
  [7]袁敏.关联分析中的统计方法研究——基因模型选择及稳健检验[D].合肥:中国科学技术大学,2009.
  [8]茆诗松,王静龙.数理统计[M].上海:华东师范大学出版社,1999.
  [9]田禹.基于偏度和峰度的正态性检验[D].上海:上海交通大学数学系,2012.
  [10]张德丰,杨文茵.MATLAB工程应用仿真[M].北京:清华大学出版社,2012.
其他文献
多媒体(Multimedia)技术是将文本、图形、图象、动画、视频和声音等内容结合在一起,并通过计算机进行综合处理和控制,能支持完成一系列交互式操作的信息技术.使用多媒体课件
石油天然气管道建设施工的过程中有很多不确定的因素,使得石油天然气管道施工管理的难度非常大。本文从石油天然气管道建设施工安全的重要性入手,分析了目前施工过程中存在的安
2010年1月31日,新华社发布“2010年中央一号文件”全文,其中首次提出:抓住当前农村建房快速增长和建筑材料供给充裕的时机,把支持农民建房作为扩大内需的重大举措,采取有效措施推
含硫原油储罐的防腐质量关系到其安全运行和使用寿命。通过对10种涂层的涂层厚度、附着力以及耐硫浸泡性能进行检测,在实验所使用的方法前提下,涂层表现出了不同的剥离、耐硫
本文立足于警察职业生活,坚持理论和实践相结合原则,从警察职业道德实践入手,借鉴并吸收了近年来学术界和公安教育理论研究所取得的成果,研究并阐述了警察思想道德建设所涉及的各
数学是一门较为重要的学科,有学者曾经指出:“数学是人类逻辑性训练的必要途径”,由此,数学的重要性可见一斑.在实际教学中,由于数学学科具有较强的逻辑性,对学生的思维要求又相当的高,导致很多学生因此陷入了数学学习的沼泽地,直接影响了学生的整体发展.因此,我们在进行数学教学的过程中,既要注重夯实基础,更要在数学学习中训练学生的“数学思维”,从而真正提高学生的数学素养.  一、有效设问,引导学生体会“过程
【摘要】数学变式指的是从一个数学题的不同角度、不同侧面、不同背景等的变更呈现出新的数学问题,而数学的本质特征并未发生根本改变.变式训练对于学生有极强的思维拓展作用,能让学生更有效地掌握和理解学习内容,因此,在中学数学教学中一直是重要的课堂教学组成部分.然而,我们现实的教学离有效的变式教学还有差距,本文阐述几种常见的变式方法,旨在让教师有目的、有意识地引导学生从“变”中发现“不变”的本质,从“变”中
对几种管道防腐蚀涂料的技术标准进行了解读和对比,对聚脲和环氧粉末涂层的耐阴极剥离性能进行了展示和比较,提出了环氧粉末涂层作为底层,聚脲涂料作为面层的新的埋地管道涂
分析了当前涂料企业市场营销工作存在的问题,阐述了市场环境的变化、渠道的变革、竞争的无序、消费者的个性化以及传统的经销商角色的变化等因素对涂料企业的营销工作的影响,提
赢创集团(Evonik)旗下赢创迪高化学有限责任公司日前为TEGO品牌问世25周年举行了庆祝活动。TEGO品牌系列产品作为涂料和油墨的原材料,一直以其创新、高效的特点为业界所熟知,主要