群体分析工具包的并行设计与实现

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:todo158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物数据量逐年急剧增长,生物大数据处理技术显得越来越重要。如何针对特定生物数据设计并行算法以提高算法运行效率成为研究热点之一。本文采用OpenMP技术,针对一系列群体分析工具设计并实现了相应并行算法,使得大豆数据处理效率得以提高。本文以大豆的基因变异信息作为主要的实验数据,对基于F统计的种群分析工具、GWAS中鲁棒性关系推理工具和关联性分析工具分别进行并行化研究。F统计工具通过读取vcf源文件和两个种群文件,对两种文件中的个体名做比对,提取有效生物信息并计算出种群间的关系值,进而得到两个种群的分化程度。GWAS中鲁棒性关系推理工具,主要通过对vcf源文件中的GT值进行截取,得出原始数据并进行相应运算,从而得出每两个个体间的关系值,通过关系值可以对生物原有的系谱进行填补,使生物间的关系更加完整。关联性分析工具是通过对vcf原文件的读取和预处理,再对数据进行比对,得出个体SNP杂合位点数和纯合位点数,以此进行计算,得出每两个个体间的关联值,通过对关联值做相应生物处理,可以找到生物的潜在的遗传可能性。论文首先设计了易于并行化的串行算法,然后根据运算对象的独立性,针对算法中的可并行部分进行并行处理。最终对每个工具的串/并行的结果与时间进行了比较分析。实验结果表明,采用OpenMP并行技术可以有效地提高每个群体分析工具的数据处理和分析的效率,对处理大量的生物信息数据很有意义。
其他文献
信贷业务作为商业银行最主要的盈利业务之一,其风险受到政府机构、监管当局、银行管理层和社会公众的高度关注。随着供给侧改革的不断推进,国有企业去杠杆工作稳步前行,企业偿还压力逐渐增大。不良贷款金额和不良率居高不下,商业银行资产质量不断下降,商业银行信贷业务风险管理情况十分堪忧。在此背景下,加快我国商业银行信贷业务风险管理工作的优化改进大有裨益。本文以我国商业银行信贷业务风险管理为主要研究内容。在政府宏
分裂公共不动点问题是在凸可行问题、分裂可行问题、公共不动点问题等一系列问题的基础上逐步发展而来的。几十年来,广泛应用于传感器网络的逆问题、放射治疗计划、小波去噪
随着信息学领域的不断发展和日益完善,压缩感知作为一个全新的理论被人们所认知,它突破了传统的奈奎斯特采样定理对于信号的处理方法,不仅有效地降低了采样的速率、保证信号
如何确定出代数数域F的Tame核K2OF的结构是一个重要而又困难的问题。为了解决这一问题,Tate给出了一个有效方法。利用Tate的方法,Browkin等确定出了若干代数数域所对应的Tame
社团发现是复杂网络研究领域中热点的研究问题之一,目前已有的研究主要是关于相同种类节点且一类关系下的复杂网络中的社团发现问题。然而,现实中存在的网络大多是由多类节点
在当前社会化石能源短缺和环境问题频发的背景之下,基于利用太阳能能源转化和污染治理的半导体光催化技术成为了研究热点。半世纪以来,半导体光催化技术陆续被应用于产氢、二氧化碳还原、有机合成转化和有机污染物降解等各个研究领域,包括最近井喷式爆发的光催化固氮研究。通常上的光催化过程包括三个主要的步骤:光子吸收、载流子分离与转移和最终的表面反应。半导体材料光照激发产生电子空穴对,分离后经由体相复合、迁移,最终
高级加密标准AES已完全取代传统的DES算法,成为信息安全领域的一个十分可靠的加密算法.特别地,由于王晓云的十分出色的密码分析工作,使得传统的密码体制MD5和SHA1不再安全,人
近年来,随着复杂网络的发展,利用其拓扑结构进行链路预测成为研究的热点。通过对复杂网络拓扑性质的研究,较好的揭示了网络中节点间的相互关系,为进一步做好链路预测提供了可
关于复杂网络的研究已渗透到物理学、生物科学、社会科学、计算机科学与工程、经济金融等众多领域,涵盖其中诸多的研究内容和方法.网络系统的簇同步问题是其中一项重要而有趣
慢性疾病已经成为威胁人类健康的“头号杀手”。我们党和国家日益重视人民的健康,2016年10月,中共中央国务院印发的《“健康中国2030”规划纲要》明确指出,在健康服务与保障领域,要实现重大慢性疾病过早死亡率显著降低的目标。在慢性疾病中,慢性丙型肝炎已成为继乙肝之后,诱发肝硬化、肝癌等重大疾病,并导致患者过早死亡的常见慢性传染性疾病。目前,聚乙二醇干扰素联用利巴韦林(PR方案)是我国慢性丙型肝炎的标