复杂疾病致病机制研究中数据分析算法的开发与应用

来源 :上海交通大学 | 被引量 : 1次 | 上传用户:skyfox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂疾病的致病不是由于单个基因位点的显性或隐性的遗传所引起的,遗传因素在复杂疾病的发展中起着重要的作用,且其病因由多种因素组成,包括常见变异以及基因-基因、基因-环境相互作用等。目前我们对于大多数复杂疾病的病因的了解仍然有限,有很大比例的遗传风险因素还有待探索。开展复杂疾病的遗传学研究将有助于我们了解疾病发生发展中的生化机制和发病机制,从而为疾病的早期预防、早期诊断、药物筛选和使用提供理论依据和生物靶标,最终提高复杂疾病的防治水平。因此,开展复杂疾病的遗传学研究有着重要的意义。当前,复杂疾病遗传机制的研究思路主要分为以下几步:(1)开展高通量实验得到位点的基因型。(2)对原始数据进行质量控制、人群结构分析。(3)进行功能变异位点分析,即单位点分析策略。(4)进行基因相互作用分析,即多位点分析策略。(5)构建复杂疾病遗传机制的分子网络。复杂疾病的遗传学研究的成果能够为遗传诊断和疾病预防提供大量的信息,这些信息将能够为临床决策提供重要的依据并使得个性化医疗成为可能。二代测序技术的发展为遗传疾病的诊断和预防奠定了坚实的基础。本研究论文的前三个课题将围绕复杂疾病遗传机制的研究思路中的(2)、(3)、(4)展开。第四个课题则提出了一种新的基于二代测序的无创产前诊断方法。课题Ⅰ:人群层化是指不同人群之间等位基因频率存在系统性差异的现象。在全基因组关联分析研究中,人群层化的存在会增加关联分析结果的假阳性率。主成分分析是目前使用最广泛的检测人群层化的方法之一。然而,随着基因芯片技术的发展,其通量也越来越大,传统的基于CPU的算法的效率已经无法满足日益增长的数据量的需求。为此,我们实现了一种基于GPU的主成分分析的算法:SHEsisPCA,其运算效率远远高于传统的基于CPU的算法,最高加速比超过了 100倍。同时,我们也实现了一种基于X-means的聚类分析算法,它可以根据样本的遗传背景计算出匹配的病例和对照样本,从而降低人群层化对于全基因组关联分析的影响。我们使用SHEsisPCA对非洲人种进行了人群结构分析,结果表明样本的聚类结果和样本的实际人群分类是高度相关的。且我们的研究表明,使用SHEsisPCA得到匹配的病例对照样本后再进行关联分析能很大程度上降低关联分析的假阳性率。研究者们也可以使用SHEsisPCA来匹配公共数据库里(如dbGaP,IlluminaiControlDB)的对照样本,从而扩充研究样本的数据量,增加全基因组关联分析的统计效能。课题Ⅱ:关联分析是遗传学研究的重要手段。目前,已有很多适用于二倍体二等位基因物种的关联分析算法和软件被提出,而适用于多倍体多等位基因物种的算法和软件却十分有限。多倍体在植物中是十分常见的,且多等位基因的遗传标记位点,如小卫星位点,拷贝数多态性等,也常常被研究者使用。本课题提出了一个用于多倍体多等位基因物种的关联分析的在线分析平台SHEsisPlus,其操作简单、用户友好,主要功能包括:病例-对照以及数量性状位点的关联分析、哈温平衡检验、连锁不平衡分析、单倍型分析以及高维的基因相互作用分析。同时,我们也提出了两种新的算法。一种是适用于多倍体多等位基因物种的高效的单倍型推断算法,该算法的准确度以及效率远远超过了现有的算法。另一种是适用于数量性状的高维基因相互作用分析算法,我们应用了信息论中的互作信息来定量位点之间的相互作用,研究结果表明该方法的统计效能远远高于传统的方法,且不受单个位点的边际效应的影响。SHEsisPlus是目前第一个支持多倍体多等位基因物种关联分析的在线平台。课题Ⅲ:前列腺癌是发生于男性的最常见的恶性肿瘤之一。前列腺癌是一种复杂疾病,目前认为复杂疾病的致病机制受遗传因素和环境因素的交互影响。虽然现已发现了多个前列腺癌的易感基因位点,然而这些发现仅能解释13%的遗传度。为了进一步寻找前列腺癌致病因素中缺失的遗传度,我们在四个人种(非洲裔美国人、欧洲人、拉丁美洲人、日本人)中开展了大规模的全基因组基因相互作用研究,共包含5,269个病例及5,289个对照。在我们的结果中,有一对相互作用的区域(7p21.3 和 18p11.2,p=1.4×10-14)达到了经 Bonferroni 矫正后的全局阳性阈值(p<2.28× 10-13),且这两个区域间的相互作用在四个人种中均为阳性。18p11.22位于基因VAPA附近,研究表明,在前列腺癌的发生发展中,VAPA是基因PTEN的ceRNAs(competing endogenous RNA),而PTEN则是一个重要的肿瘤抑制基因,该基因在多种肿瘤中均存在变异,包括前列腺癌。以往的研究已在7p21区域内发现了多个前列腺癌的易感位点。药物富集分析的结果表明,呈现强阳性的相互作用的基因与经FDA批准的用于治疗前列腺癌的药物的靶标基因显著重叠。之前的研究认为全基因组关联分析的结果可以为新药的开发提供非常宝贵的信息。这里我们证明了全基因组基因相互作用分析的结果也能够为药物研发提供重要的证据和指导。这表明人类遗传数据可以有效地和其他生物学信息相结合以发现新的生物学证据并指导药物的开发。课题Ⅳ:高通量测序技术已被广泛应用于无创产前诊断领域,相比于传统的有创产前诊断,无创产前诊断不仅安全性高,其准确度和灵敏度也很高。无创产前诊断主要用于检测胎儿的染色体非整倍性疾病,如21-三体综合征、18-三体综合征以及13-三体综合征等。目前,使用高通量测序技术进行无创产前诊断的方法主要是Z-score法。该方法首先使用怀有正常胎儿的孕妇的相应染色体含量建立一个正常分布,然后将待测样本的相应染色体的含量与该分布进行比较,最后得出诊断结果。由于该方法需要使用大量的正常样本建立正常分布,这不仅耗时长,且成本高。除此以外,每次测序的实验环境(如实验室的温度、湿度等)无法保证一致,因此可能会引入噪声,对结果造成一定的影响。针对这些问题,我们提出了一种新的分析方法,该方法只需一个已知正常的样本即可判断待测样本是否患病,且参考样本和受试样本的DNA信息都在同一次测序中得到。这样不仅减少了测序的成本、节约时间,且能够尽可能地避免引入噪声。我们使用该方法检测了 44个已知核型的样本(共计13次测序实验),其对于13-三体综合征的检测的特异性和灵敏性分别为100%和95.181%,对于18-三体综合征的检测的特异性和灵敏性分别为100%和100%,对于21-三体综合征的检测的特异性和灵敏性分别为90%和100%。
其他文献
目的探讨脑卒中后下尿路功能障碍患者的尿动力学改变及临床干预疗效。方法回顾性分析我院于2007年3月至2011年7月间40例行尿动力学检查的脑卒中后下尿路功能障碍患者的资料,
通过女性对土地的理解和信任,女性对他人他物的宽待包容,女性母性在生活中的迁移等三个方面的分析,阐释了薇拉.凯瑟在作品中所表达的女性关怀伦理思想,歌颂了女性的伟大。
总结介绍半干旱区园林绿化用暴马丁香的育苗技术,供同类地区参考。
我国的政府采购制度于1999年试行,2000年全面推行,在政府的大力推进下,取得了很大的发展。包括规模的不断扩大和范围的延伸、公开招标比例的提高和政府釆购法律体系的不断完
在“十一五”和“十二五”时期,我国不断加大保障性住房投资力度,保障性住房建设取得了显著成果,但也面临着政府财政压力大、资金融资乏力、土地供应紧张、住房分配及后续管
上海地铁进入了网络化高速建设发展阶段,目前已建成运营15条线路,里程达617公里,车站367座,日均客流超过了1000万人次,网络容量居世界第一。上海申通地铁集团公司通过车站环
目的探讨特殊护理在翼状胬肉切除术后的应用。方法选取2017年1月至2018年12月在中山大学附属第一医院眼科收治的翼状胬肉切除术患者的临床资料。通过术前视频宣教、现场护理
虚拟制造技术以虚拟建模和仿真技术为依托,在汽车制造上应用模型进行产品的设计和修正缺点,实现低成本制造产完美性的汽车产品。本文简要论述了虚拟制造技术在汽车上应用的意
近年来西南民族地区旅游业迅猛发展,游客的到来引起了旅游目的地经济社会文化不同程度的变化并最终通过文化进行综合反映。然而,由于各个旅游目的地自身条件和环境的差异,游
文中将苯甲酸乙酯作为载体应用于涤纶纤维低温载体染色,研究苯甲酸乙酯对分散蓝2BLN助溶作用,探讨苯甲酸乙酯用量、染色温度与染色保温时间对涤纶纤维染色效果的影响,对比低