论文部分内容阅读
DNA测序方法加速了生物学和医学研究与发展的进度,是实施精准医疗和基因药物开发的重要途径。DNA测序的目的在于发现测序序列中的变异,探索基因变异与疾病之间的关联性。例如,建立DNA测序数据中变异与癌症之间的相关性,已经成为检测与预测癌症的重要技术手段,并能够有效地指导临床治疗。因此,DNA序列变异检测具有重要的科学意义和应用价值,为科学地分析疾病和发现新的治疗方案提供了新的选择。相关研究尚处于发展阶段,仍需深入地探索与发现基因变异导致疾病发生的原因。论文在分析国内外基因变异研究现状的基础上,开展数据挖掘在DNA序列变异检测中的应用研究。论文重点对DNA序列靶向捕获探针设计、靶向测序中序列变异、PCR引物匹配检测变异、基因芯片表达谱和关键基因分析等领域进行深入研究。论文分析与挖掘人类DNA序列中的变异,建立疾病与癌症基因变异的相关性。论文的创造性成果主要体现在:(1)针对探针设计的特异性、Tm值和最优位置难以确定等问题,提出了一种基于最优位置匹配算法来评估DNA中的探针序列。设计最优位置匹配算法确定序列特异性,利用GC含量和分布规则来评估符合Tm值要求的最优序列,智能分析整个DNA序列中最优的探针序列。通过对BCRA1外显子进行探针设计验证,能够快速识别符合要求的探针序列。(2)针对检测靶向测序序列中SNP和In Del变异的准确率低、差异性大等问题,提出了一种基于位置索引关系的DNA序列匹配算法,旨在建立DNA序列的位置索引关系分析SNP和In Del变异。首先,对子序列进行分割成k个固定序列并建立链路;其次,分析最优链路中的位置差异性,建立位置变异的判定模型;最后,靶向测序目标区域覆盖BRCA1/2基因的整个编码区、外显子-内含子连接区(20-50bp)和部分内含子区,共计703个外显子区域。通过101.3k区域捕获实际数据作为实例验证,实验结果表明基于位置索引方法比Bcftools、Freebyes、Vanscan2和GATK检测到更多的变异点。(3)针对在基于特异性引物的扩增子技术的靶向测序中,DNA序列比对存在错配、漏检变异点等问题,提出了一种基于PCR引物序列匹配靶向目标序列的算法。首先,对测序序列进行排序,统计相同序列的数量,以减少匹配次数;其次,将测序序列与PCR引物序列进行匹配,快速匹配到目标区域的全部序列,局部最优算法精准检测目标序列中变异;最后,实验结果与传统的序列比对方法相比,PCR引物序列匹配方法可以匹配更多的序列,发现更多的变异,并在召回率上也表现出更优的性能。(4)针对基因表达中存在的基因数量大、分类效果差以及关键基因选择没有考虑基因相关性等问题,提出了一种基于SVM-REF的基因芯片分类算法和Page Rank关键基因筛选方法。首先,考虑到基因表达矩阵中的Log FC、Pvalue值并结合SVM-RFE算法筛选不同基因,对SVM、KNN基本算法进行测试,获取最优参数;其次,对Pank Rank算法相关收敛进行证明,利用复杂网络分析各个基因节点的重要度来确定基因是否为关键基因;最后,实验结果表明SVM-RFE-SVM的基因分类效果最佳,可以作为基因芯片分类算法来分析基因特征。同时,对不同基因表达网络下的PR值进行计算可以筛选出不同类别的调控基因,结合几种基因的排序来确定关键基因。