基于统计建模方法的蛋白质结构预测研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:oldfan48
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从20世纪80年代末开始,生物信息学(Bioinformatics)逐渐兴起并开始蓬勃发展。生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学,它不仅是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。生物信息学的发展将会对生命科学带来革命性的变革,它不仅会对相关基础学科起巨大的推动作用,还会对农业、医药、卫生、食品等产业产生巨大的影响。当前生物信息学研究的一个主要方向是发展基于统计建模的预测方法,例如隐马尔科夫模型、支持向量机、k近邻等方法。相对于传统的方法,这些方法具有速度快、自动化程度高的优点,尤其适用于高通量大规模序列数据的分析。本文主要以蛋白质的结构和功能的预测为应用背景,对上述这几种基于统计建模的预测方法进行了较深入的研究,旨在提高它们在特定的预测应用中的精度和效率。 本文主要在以下几个方面进行了有成效和有特色的研究: 1.跨膜螺旋是蛋白质家属中极为重要的一种类型,在几乎所有的活细胞和信号传输中都起着重要作用,人类基因组中相当一部分蛋白质编码为螺旋连接的跨膜段的形式。因此,对跨膜段的正确预测是实现蛋白质功能预测的重要步骤。本文针对跨膜蛋白序列的生物学特征,提出了一种新的隐马尔科夫模型分段训练算法,对跨膜螺旋的分段位点以及螺旋方向等特征进行了建模和预测。同标准训练算法相比,该算法具有时间复杂度低、预测精度高等优点。对于包含160条跨膜螺旋的蛋白序列进行10次交叉验证的测试,结果使用该训练算法的预测准确率达到96.98%,正确定位精度为91.25%,高于其他预测方法对该数据集的预测结果,验证了该算法的合理性和有效性。 2.蛋白质可溶性表征蛋白质残基在三级结构中与溶剂接触的程度,是反映蛋白质三级结构以及功能位点的主要特征。按照蛋白序列中残基的相对可溶性,将其分为两类(表面/内部)和三类(表面/中间/内部)进行预测。采用Markov链模型,选择不同窗宽和参数对数据进行训练和预测,以确保得到最好的分类效果,并同其他已有方法进行了比较。对同一数据集不同分类阈值的预测结果显示,
其他文献
在传统的信号检测中,总是假设背景噪声服从高斯分布。然而,在很多应用场合,背景噪声表现出非高斯特性和脉冲行为,例如,人为噪声,大气噪声,水下噪声和来自其他用户的干扰等。
随着计算机及物联网技术的迅速发展,声学信息采集趋向于阵列传感器融合方式,有效地提高了系统对环境的感知能力。其中,波达方向(Direction of Arrival,DOA)估计是麦克风阵列