论文部分内容阅读
近年来,单核苷酸多态性(single nucleotide polymorphisms,SNPs)作为人类基因组中最常见的一种遗传变异,成为新一代的遗传标记,在疾病易感基因、药物敏感性、人类进化和群体遗传学的研究中起重要作用。随着大规模、高通量测序和分型技术的诞生和迅速发展,遗传数据的数量、难度和复杂度的不断增加,遗传学家必须借助生物信息学的方法对数据进行分析和处理,才能得到他们感兴趣的信息。在过去的数年里出现了大量的软件包和程序,用以实现遗传统计方法,它们对遗传学研究工作起到了非常关键的作用。这些工具虽然对用户隐藏了复杂的计算过程,但是在操作使用方面存在局限,遗传工作者常常会感到难以驾驭。此外,遗传数据的管理与处理通常是在Linux环境下进行的,由于Linux能提供大量数据的高通量的并行计算,很多分析软件是在Linux操作系统下构建的,但其专业化的操作界面亦不为生物学工作者所熟知。为此,在Linux环境下整合遗传分析工具,构建一个操作简单、界面友好且功能强大的分子遗传变异数据处理的平台,能够更好的处理数据。本平台采用浏览器朋艮务器(B/S)架构,以Apache HTTP服务器为Web服务器,结合MySQL数据库来管理平台数据,采用Perl语言为开发工具,因为它是一种胶水语言,可以无缝整合多种遗传变异数据分析软件包。平台的应用环境是CentOS Linux操作系统,目前本研究已实现平台的大部分功能,能对国际权威数据库HapMap、dbSNP、SeattleSNPs,以及遗传实验室中产生的不同格式的SNPs变异数据进行生物信息学处理,包括:单体型推断、连锁不平衡分析、估计单体型板块、选择标签SNP、疾病一对照设计、传递不平衡检验、HWE检验、中性检验、群体分化、群体结构、建群者效应假设、等位基因年代、祖先重组树图等等,最后将处理结果以表格、文本或图像形式输出。此外,本平台以高性能计算机的Linux操作系统为应用环境,对两组生物学数据进行实验验证,结果表明本平台能很好地辅助生物学者进行复杂疾病易感基因定位和群体遗传方面的一些研究。本平台界面友好,操作简便,容易扩展,为非计算机专业的生物学者提供方便,是分子遗传数据处理和分析的有效工具。