论文部分内容阅读
单核苷酸多态性(SNP)是人类基因组DNA序列变异的主要形式,是决定人类疾病易感性和药物反应性差异的核心信息。在SNP位置上的核苷酸称为等位基因(allele)。对于人类而言,位于一条染色体上某个区域上的一组等位基因称作单体型(haplotype),而位于一对染色体上某个区域的由成对的等位基因构成的序列称作基因型(genotype)。许多研究表明在预测、研究复杂疾病方面,单体型所携带的信息比单个的SNP或基因型数据的信息多得多。但是在现有实验条件下要获得单体型非常困难,而获得基因型数据或SNP数据却很容易,因此本文主要是利用SNP数据和基因型数据来研究单体型的重构问题以及带有基因信息的单体型重构问题。另外,实验数据中经常会遇到缺失现象和冗余现象,而这些现象在疾病关联研究中会阻碍进一步的分析和研究,因此又对这些问题进行了讨论。本论文主要是从数学优化的角度着手,针对单体型、基因型的相关问题建立优化模型并构造优化算法,目的是利用计算的手段更好地探究这些问题。本论文从以下三个方面进行论述:(1)在第三章中,分别对单体型重构问题中的最少错误纠正(MEC)问题和带有基因信息的单体型重构(HRG)问题建立了数学优化模型,并证明了模型的一些性质,如可行域的非空性、目标函数的有界性和最优解的存在性,最后又分别构造了两种启发式算法。首先构建了两个用于衡量SNP片段相似度和差异度的距离函数,然后基于这两个函数设计了一个再聚类算法用于求解MEC问题。该算法可以求解大规模问题,又克服了目前较有效的遗传算法的一些缺陷。在算法中还利用增加SNP片段数量的方法改善结果。但是有时得到的SNP片段的数量是有限的,因此又讨论了HRG问题。唯一的求解HRG模型的启发算法一前馈神经网络算法(FNN)还不够完善:容易陷于局部最优,受参数及初始权重的影响很大,而且得到的单体型与给定的基因型不一定完全相容。因此,针对HRG问题,基于距离函数构造了迭代的局部确定搜索方法。与FNN方法比较,该方法简单易行,不受各种参数的影响,而且通过大量的数值计算,计算结果表明我们的算法更有效。(2)在第四章中,把基于连锁不均衡性(简称LD)的标签SNP选取问题转化为最小集合覆盖问题,并建立了数学优化模型,然后基于两种启发因子一集合中元素的数量和集合的覆盖度,建立启发函数。最后基于这个函数又构造了启发函数算法。与贪婪算法相比,我们的算法多考虑了一种启发因子-集合的覆盖度。通过验证,尽管我们的算法未必能找到最优解,但实验结果表明我们的算法在大多数情况下都能找到比贪婪算法更好的解。这充分证明了通过增加启发因子来改善启发函数,进而改善算法的合理性。(3)在第五章中,研究了基因数据缺失值估算问题。把互信息理论运用于SNP位点相关性的研究中,利用联合互信息度量SNP位点之间的相关性。并构造了一种基于单体型估算方法的扩展方法。与基于单体型的估算方法比较,计算结果表明我们的算法更有效。这说明了互信息用于度量SNP位点之间相关性的有效性和可行性,同时也证实了并不一定是毗邻的SNP位点之间的相关性最强。