面向大规模数据的单体分型算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:murrayxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组学(genomics)是当今生物学家探究生命奥秘的新兴研究领域,其中单体型是基因组学中的一类重要信息,它在复杂疾病关联研究、药物设计中起着至关重要的作用。由于人类基因型数据是双倍体结构,从基因型数据推导单倍体信息被称为单体分型。单体分型的计算手段相比实验方法具有廉价、快速以及高准确度等特性,已成为获得单体型数据不可或缺的方式。随着生物学测序技术和研究的深入,产生了海量的基因型数据,迫切需要研究能够分型大规模基因型数据的有效算法。单体型分型问题可分为群体数据集和家系数据集两大类,本文主要研究大规模群体数据集上的快速和高精度分型算法,具体工作如下:   1.基于可扩展滑动窗口的高效单体分型算法   2.SNP算法是近年来提出的一个简单优秀的分型算法,该算法通过构造最大生成树使其具备最快的分型速度和尚好的分型精度。已有研究观察到的真实单体型数据呈现块状结构,该特性常被用于提升单体分型算法的精度。我们依据单体型序列的这种生物特征,设计了一个逐步优化策略的单体分型算法。首先,设计了一个简化的2SNP算法获得初始分型;其次,采用可扩展滑动窗口搜寻匹配的单体型块来改进初始分型结果;最后,应用最大节约规则进行重组使分型解进一步优化。该算法被实现为一个称为WinHAP1.0的分型软件,WinHAP1.0对4种不同规模和类型的基因型数据集进行测试。测试结果反映了WinHAP1.0在这4种数据集上与2SNP算法分型速度相当,在其中的3种数据集上具有最好的分型精度。   2.面向大规模数据的分段单体分型算法   本项工作在前面单体分型算法WinHAP1.0的基础上,通过分段手段设计了一个面向大规模数据的单体分型算法。目前可处理大规模基因型数据集的优秀分型算法有Beagle,该分型算法在处理大规模数据集时需要耗费较多内存,难以在普通PC机平台上运行。我们对分型算法WinHAP1.0进行了扩展,新算法WinHAP2.0先将大尺寸的基因型数据集进行分段并利用WinHAP1.0对每段进行分型,再用可扩展滑动窗口对各段的单体型进行拼接和调整。算法WinHAP2.0可以处理无限长度的大规模基因型数据集,与WinHAP1.0具有相同的时间复杂度阶并保持原有的分型精度,在普通PC平台上可实现大规模基因型数据上的单体分型。在Beagle算法可计算规模的数据集上,我们分别取了一个真实数据集和一个模拟数据集进行计算实验,计算结果反映了WinHAP2.0比Beagle算法有更快的处理速度,分型精度略低于Beagle算法。
其他文献
在软件管理系统中,数据大部分存储在传统的关系型数据库中,但当业务复杂度的提高和数据量的不断增加,简单的通过单一节点的数据库处理方式已经无法满足用户对于希望快速获取反馈
集成学习,是先将样本提供给多个学习模型,再采取投票或是级联等方法把这些学习模型的输出集成起来的学习模型。集成学习采用合成多个学习模型的输出,能够显著的提高学习模型的泛
随着Web2.0的出现和高速发展,互联网中用户所产生的信息容量和用户数量都呈现爆炸性增长的趋势,网络平台已经成为人们日常生活中不可缺少的信息获取、交流和传播的重要媒体。
癌症不是单一类型的疾病,而是存在分子亚型的。其分子的复杂性体现在mRNA、DNA、蛋白质等多层次遗传物质中。仅分析其中一种数据并不能够完整揭示分子亚型的独有特点。  
随着信息化技术不断发展,人类社会进入了信息化时代,各种各样的应用软件也随之应运而生,如ERP、OA、SCM、PLM等。这些软件对企业的快速发展起到了重要作用,越来越多的企业也
随着互联网的持续高速发展和广泛应用,分布式计算取得了巨大的进步,分布式计算技术的新进展和XML技术的出现,最终导致了Web服务技术的诞生。Web服务是一种基于服务提供者和服
在基于目标函数的模糊聚类算法中,模糊C-均值聚类算法得到了丰富的理论研究和广泛应用。它通过迭代和爬山技术来寻找问题的最优解,是一种局部搜索算法。然而,该算法对初始中心很
数据挖掘技术随着当前互联网中与日俱增的海量数据不断地热门起来,已成为当前信息科学领域中的热门研究课题。关联规则挖掘逐渐受到研究者的追捧,成为数据挖掘的热门研究方向
无线网络因带宽受限、信号衰减等问题,使得原本为有线网络设计的TCP协议往往错误触发拥塞控制机制,导致网络性能恶化。因此,无线网络中对TCP的改进是近年来网络研究的热点之一。
随着计算机网络技术与数字通信技术的飞速发展,多媒体数据的交互得到迅速的普及,但是由此而来的多媒体数据的侵权和篡改现象日益严重。传统的数字签名技术对多媒体数据的保护有