论文部分内容阅读
随着生物测序技术的发展,人们获得了大量的DNA、RNA和蛋白质序列数据,然而与其对应的功能和结构数据却增长缓慢,因此有必要利用机器学习方法来解决这一问题。利用机器学习方法通过序列来研究它们的结构和功能,其中关键问题是如何提取有效的序列特征。本课题对DNA、RNA和蛋白质序列特征提取方法进行深入研究,提出了34种特征提取方法,并将这些特征用于研究生物信息学中三个重要问题:DNase I超敏感位点识别,微小RNA前体识别和DNA结合蛋白识别。本课题研究了DNA、RNA和蛋白质序列特征提取方法。使用机器学习方法首先需要提取序列特征,然而生物序列特征具有不同的长度,如何将其转化成固定长度的特征向量是一个难点。此外,特征提取算法直接影响预测方法的精度。针对这一问题,本课题提出了三类序列特征提取方法:基于核苷酸/氨基酸组成,自相关和伪核苷酸/伪氨基酸组成的特征提取方法。基于核苷酸/氨基酸组成的方法利用序列的基本组成信息,即核苷酸/氨基酸的统计特性,来表示序列。利用序列的基本组成信息虽然取得了一定的成功,但是由于其忽略了序列的全局顺序信息,即核苷酸/氨基酸的物理化学属性的影响,导致该方法对序列信息表达不足。针对这个问题,本课题提出了基于自相关的特征提取方法。为了更好地表达序列信息,本课题同时考虑序列的局部和全局顺序信息,提出了基于伪核苷酸/伪氨基酸组成的特征提取方法。本课题提出了基于RNA二级结构状态的特征提取方法。在上述研究成果的基础上,开发了三个序列特征提取工具rep DNA,rep RNA和Pse-in-One,分别用来提取DNA、RNA和蛋白质的序列特征。为了验证上述特征提取方法的有效性,本课题采用这些特征针对DNase I超敏感位点识别,微小RNA前体识别和DNA结合蛋白识别三个具体的生物信息学问题分别提出预测方法。对于DNase I超敏感位点识别问题,本课题提取了基于DNA序列核苷酸组成,自相关和伪核苷酸组成的三类特征特征,由于这些特征具有不同的序列分布,采用集成学习方法将不同特征组合起来,通过加权投票策略得到最终的预测结果;对于微小RNA前体识别问题,本课题采用相似的特征提取方法和集成学习策略,最终在数据集上达到86.14%的准确率。对于DNA结合蛋白识别问题,本课题提取了基于蛋白质序列氨基酸组成,自相关和伪氨基酸组成三类特征,采用相似的集成学习方法,预测准确率为77.96%。