论文部分内容阅读
近年来,随着基因组测序技术和物质结构解析技术的发展,生物序列和结构的数据呈指数形式增长.传统的生物实验方法已不能满足目前处理这些海量生物数据的需要.在这种情况下,生物信息学应运而生,其目的在于通过对生物数据的获取、加工、存储、检索与分析,揭示数据所蕴含的生物学意义.从信息科学技术的角度来看,生物信息学的研究是一个从“数据”到“发现”的过程.基于机器学习的数据挖掘技术在生物信息学研究中正发挥着越来越重要的作用,并取得了丰硕的成果.本文针对机器学习方法在生物信息学中的若干应用进行了研究,主要成果如下:(1)在第二章,提出了两种蛋白质结构类预测的新方法.第一种方法利用基于符号序列复杂度的距离度量构造k-近邻分类器,避免了蛋白质序列特征提取过程中的信息丢失.在标准数据集上的测试结果验证了该方法的有效性.第二种方法把传统的氨基酸组分和双肽组分推广到基于蛋白质序列PSI-BLAST profile(即PSSM矩阵)的情形,并利用支持向量机进行预测.该方法在具有较低序列相似性的数据集上取得了比较满意的预测结果.(2)在第三章,提出了一种改进的伪氨基酸组分模型预测凋亡蛋白的亚细胞定位.该模型利用自协方差变换从PSSM矩阵中提出序列特征,并使用支持向量机作为预测器.测试实验表明该模型具有良好的预测性能.(3)在第四章,首先利用ATTED-Ⅱ数据库提供的基因共表达数据构建了拟南芥全基因组的共表达网络,然后提出一种子图诱导的策略和基于最大团的图聚类算法改进了共表达基因的聚类,最后利用四种经典的模体搜索算法从每一组共表达基因中预测转录因子结合位点.实验结果验证了该方法的有效性和实用性.(4)在第五章,以模式植物拟南芥为研究对象,利用支持向量机预测转录因子和靶基因之间的调控关系.该方法利用基因表达谱数据构造特征向量,并在我们自己构建的数据集上取得了较高的预测准确度.