论文部分内容阅读
基因识别是指采用生物学实验或计算机等手段来识别DNA序列上的具有生物学特征的片段,是生物信息学的一个重要分支。启动子是DNA序列上的一段重要的基因调控序列,标志着转录起始点的位置,可以用来定位基因。本文研究的启动子识别算法是一种基因识别工具,能在DNA序列中找出基因的大体位置,为生物学实验提供参考。潜在语义索引广泛应用于文本挖掘,本文尝试将潜在语义索引应用于真核生物启动子的识别算法中,提出了基于潜在语义索引全局模型和差异模型的启动子识别算法,并与文献结果进行了比较。最后,利用拉普拉斯矩阵的特征值分析了DNA序列集之间的相似性,将其应用于启动子识别算法的样本选择和评价中,取得了良好的结果。本文从潜在语义索引的原理分析出发,提出了一种基于潜在语义索引全局模型的启动子识别算法,通过实验验证了潜在语义索引能起到有效的降维和分类作用。对多种影响算法的因素进行了详细分析,总结归纳出了全局模型的特点和不足。在此基础上,本文又提出了一种应用潜在语义差异模型进行启动子识别的算法,通过实验验证了差异模型识别启动子的有效性,分析了表示方法和阈值等参数对于算法的影响,并总结了差异模型相对于全局模型的优点。本文提出了一种新的分离度概念,通过分析拉普拉斯的特征值来度量各种DNA序列集的相似程度。人工序列和多组真实数据的实验表明,这种相似性度量是有效的。最后,通过将该度量方法应用于启动子识别的样本选择和评价中,证实了分离度高的样本识别效果更好。本文创新点如下:(1)提出了基于潜在语义索引全局模型的启动子识别算法,与文献结果对比,得出更好的识别效果。(2)提出基于潜在语义索引差异模型的启动子识别算法,避免了全局模型算法的样本抽取和设置阈值等问题,同时进一步提高识别效果。(3)提出序列集之间的一种新的分离度概念,可有效地度量序列集合之间的相似程度,并可用于评价训练样本的识别能力。