论文部分内容阅读
人类基因组计划的逐步完成使得研究基因组之间的个体差异成为可能,单核苷酸多态性(SNP)就是个体差异中最主要的一种。个体间SNP的差异影响了人们罹患疾病的不同风险和对药物的不同反应。因而研究SNP位点与疾病相关性对于多基因疾病的诊断和治疗有着重要的意义。基于此,实验室开发了一套利用生物芯片技术批量的检测大样本SNP基因型的流程。作为这个流程的重要环节,本文从生物信息学的角度设计了疾病相关的SNP数据库平台系统(DrSNP),并着重研究了SNP的筛选。
在进行SNP与疾病的相关性研究中,涉及到大量的信息,其中包括SNP位点信息,病人样本信息和生物芯片实验的相关信息。在本文中,我们构建了DrSNP数据库平台来筛选、管理和分析这三部分数据,并完整提供了从SNP筛选到病人样本管理,再到生物芯片实验,最后获得实验的统计分析结果一系列功能。
在一次完整地研究流程中,SNP的筛选作为流程的第一步往往对后续的芯片实验的成功与否起着至关重要的影响。针对SNP的筛选,本文从基因组结构的角度,提出了多种SNP筛选方法。同时,我们对这些方法的实现难度和优先级进行了评价。最终给出了筛选SNP的一般思路。
SNP的筛选是基于大量的基因组序列数据及其注释信息进行的。我们从NCBIGenebank、UCSCgenome、dbSNP、dbTSS、peseudogene、Transfac等国际数据库获取了大量原始序列数据后,利用多种生物信息学方法在这些原始数据中挖掘二次信息,得到了详尽的全基因组编码基因启动子区的各种调控元件的信息。基于这些信息,我们构建了筛选相关的数据库。通过数据库结构优化,我们还实现了数据的自动更新以及模糊查询等功能。
最后,在构建SNP筛选数据库的基础上,我们利用JSP技术实现了基于web的SNP查询系统。在这个过程中,我们设计了一个可以同时显示基因模型和SNP表单的页面结构。这个筛选页面可以实现从基因、基因家族、染色体等多个层面上的SNP的检索和筛选。同时它还作为一个有效的框架,可以为今后的其它SNP筛选策略的实现提供基础。