论文部分内容阅读
20 世纪末启动的人类基因组计划和近期因特网的广泛普及和发展促进了生物信息学的诞生。生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。这里重点讨论了借助于数据挖掘的聚类分析和分类技术在生物信息领域的三个应用,即基因表达数据(又称为微阵列数据)的聚类分析,膜蛋白类型的预测,和信号肽的分类及其剪切点的预测。这三方面的问题都是生物信息领域处理的热点。
本文的主要工作包括:
1) 首先详细介绍了常用的聚类算法和分类算法及应用。聚类属于无监督学习,它将数据对象按照相似度分组成多个类或簇。分类算法中的SVM是实现结构风险最小化的一个途径,有着坚实的统计学习的理论基础,被广泛地应用于各个方面,在生物信息学中很多方面也有成功应用,本文的有监督分类中采用SVM 作为分类器。本文还对聚类分析在基因表达数据中的应用、膜蛋白类型的预测和信号肽分类及其剪切点的预测的相关领域进行了文献调研和综述。
2) 聚类分析是基因表达数据分析的重要工具,然而很多聚类算法都需要预先知道聚类数,具有很大的局限性,为解决这个问题,本文提出了谱估计聚类数的方法,并得到了实验验证。另外,针对常见的基因表达数据的缺失情况,进行了缺失值的处理,实验证明该方法在不完整基因表达数据分析中能取得很好的效果。
3) 膜蛋白数据预测是生物信息学的一个热点。膜蛋白氨基酸序列各位置的相关信息对确定膜蛋白种类非常关键,以往的预测工作往往建立在氨基酸发生频率或者基于序列级数相关因子的假氨基酸组成的基础上,这些算法只能提取简单的相关信息。本文证明了假氨基酸组成和编码后蛋白质序列的能量谱关系,进而证明了假氨基酸组成丢失了重要的相位信息。由此,本文借助傅立叶谱分析,提取编码信号的幅频特征和相频特征,即在考虑能量的同时,还加入相位的影响,在此基础上作SVM 分类预报,提高了分类效果。
4) 在信号肽分类及其剪切点预测的研究中,对于目前为处理信号肽长度不一致的问题而普遍应用滑动窗口方法,本文发现并详细论述了由其引发的严重的不平衡数据问题。为了解决这个问题,本文采用了对大样本采样的方法,处理后的数据用SVM 分类器分类。比较实验证明,我们最关心的小样本(即信号肽正样本)的正确率有了显著的提高。
5) 同时,在信号肽分类及其剪切点预测的研究中,本文发现剪切点附近-3 和-1 位(相对于剪切点)的氨基酸残基的分子量和电量的特殊性,即[-3,-1]规则(von Heijne 1985),有助于预测分类,由此提出了针对信号肽预测的基于信息量的特征加权算法,此算法避免了以往算法对待不同位点处理的盲目性。经过实验验证,不仅提高了小样本的分类正确率,同时保持大样本的正确率在很高的水平。将不平衡样本的处理和基于信息量的特征加权结合起来使得分类器的性能大大提高。