论文部分内容阅读
基因组学(genomics)是当今生物学家探究生命奥秘的新兴研究领域,其中单体型是基因组学中的一类重要信息,它在复杂疾病关联研究、药物设计中起着至关重要的作用。由于人类基因型数据是双倍体结构,从基因型数据推导单倍体信息被称为单体分型。单体分型的计算手段相比实验方法具有廉价、快速以及高准确度等特性,已成为获得单体型数据不可或缺的方式。随着生物学测序技术和研究的深入,产生了海量的基因型数据,迫切需要研究能够分型大规模基因型数据的有效算法。单体型分型问题可分为群体数据集和家系数据集两大类,本文主要研究大规模群体数据集上的快速和高精度分型算法,具体工作如下:
1.基于可扩展滑动窗口的高效单体分型算法
2.SNP算法是近年来提出的一个简单优秀的分型算法,该算法通过构造最大生成树使其具备最快的分型速度和尚好的分型精度。已有研究观察到的真实单体型数据呈现块状结构,该特性常被用于提升单体分型算法的精度。我们依据单体型序列的这种生物特征,设计了一个逐步优化策略的单体分型算法。首先,设计了一个简化的2SNP算法获得初始分型;其次,采用可扩展滑动窗口搜寻匹配的单体型块来改进初始分型结果;最后,应用最大节约规则进行重组使分型解进一步优化。该算法被实现为一个称为WinHAP1.0的分型软件,WinHAP1.0对4种不同规模和类型的基因型数据集进行测试。测试结果反映了WinHAP1.0在这4种数据集上与2SNP算法分型速度相当,在其中的3种数据集上具有最好的分型精度。
2.面向大规模数据的分段单体分型算法
本项工作在前面单体分型算法WinHAP1.0的基础上,通过分段手段设计了一个面向大规模数据的单体分型算法。目前可处理大规模基因型数据集的优秀分型算法有Beagle,该分型算法在处理大规模数据集时需要耗费较多内存,难以在普通PC机平台上运行。我们对分型算法WinHAP1.0进行了扩展,新算法WinHAP2.0先将大尺寸的基因型数据集进行分段并利用WinHAP1.0对每段进行分型,再用可扩展滑动窗口对各段的单体型进行拼接和调整。算法WinHAP2.0可以处理无限长度的大规模基因型数据集,与WinHAP1.0具有相同的时间复杂度阶并保持原有的分型精度,在普通PC平台上可实现大规模基因型数据上的单体分型。在Beagle算法可计算规模的数据集上,我们分别取了一个真实数据集和一个模拟数据集进行计算实验,计算结果反映了WinHAP2.0比Beagle算法有更快的处理速度,分型精度略低于Beagle算法。