论文部分内容阅读
蛋白质出现在所有生物中,是一类重要的生物大分子,它们在几乎所有生物过程中起了关键的作用。蛋白质由氨基酸构成,氨基酸按序连接形成蛋白质的初始结构。蛋白质二级结构的基本元素为α螺旋、p折叠层、卷曲螺旋和转角。转角是结构化的基序,基序中两个残基的α原子被几个肽键(通常是1到5个)分隔,它们之间的距离小于7A°,相应的残基不能形成规则的二级结构元素如α螺旋或p折叠层。不同的转角按照两个端残基之间的距离分类。终端残基被α转角中的4个肽键、p转角中的3个肽键、γ转角中的2个肽键、δ转角中1个肽键和π转角中的5个肽键分隔。p转角是在蛋白质中发现的最常见的转角结构形式,因为蛋白质结构中,大约25%的氨基酸在它们当中。因为涉及到转角形式的相互作用大部分是局部的,所以p转角在链熵中能胜任初始的繁殖结构却没有大的损失,这使p转角在蛋白质折叠中变得很重要。这个观点与层次折叠模型是一致的。在层次折叠模型中,某些包含具有高的转角倾向的残基的转角充当了结构形成的活动成核点,这些成核点源自于角落残基并向侧边的p绞丝传播。β转角在蛋白质的折叠反应中起来两个不同的作用:它们或者是主动折叠和作为起始位点起作用,或者是仅仅在其他区域发育完成之后形成的被动折叠元素。当β折叠作为被动折叠起作用时,其他折叠事件如肽链坍塌或稳定的第三位的相互作用促进了结构的形成,而且,转角的形成仅仅是来自蛋白质的其他区域结构巩固的结果。这些不同的作用可能来自,在形成不同蛋白质的原始状态的过程中,各种相互作用的相对重要性。通过固有的偏向于φ,ψ空间以及侧链包裹相互作用和局部环境,转角能影响蛋白质的原始状态的的稳定性。因为p转角通常发生在蛋白质的暴露面,所有它们很适合参与配体结合、分子辨识、蛋白质-蛋白质相互作用、蛋白质-核酸相互作用,因而,调节了蛋白质功能和分子间的相互作用;另外,它们是频繁的翻译后修饰点,如被用于调节相互作用的磷酸化作用和糖基化。因此,开发精确的β转角测定方法是很有价值的。x射线晶体学和核磁共振都越来越多地运用于蛋白质结构预测。而结构测定并不是一个直线前进的过程,X射线结晶学受限于蛋白质形成晶体的难度,核磁共振只适用于相对较小的蛋白质分子。两种方法在时间、表现形式和蛋白质的大小方面受到限制。通过全基因组序列测定了大量的蛋白质序列,然而确定相应的蛋白质结构却要缓慢得多。因而,计算方法是必要的。目前,有几种用于β转角测定的计算方法,在预测质量方面有很大的挑战和改进的空间。在本文中,我们整合机器学习和基于统计的方法在蛋白质二级结构中预测p转角。我们考虑在人工神经网络中使用统计空间降维的方法增加其在蛋白质二级结构预测中的有效性,并且产生与目前的其他方法的可比较的结果。我们也公式化了逻辑回归模型和使用了核心逻辑回归预测p转角。这两种技术通常是不用于蛋白质二级结构和p转角预测的研究领域的。最后,我们提供了一个混合方法,它将支持向量机和逻辑回归结合为一个强有力的框架,这种方法在蛋白质的p转角预测中运行良好。因为训练神经网络是一个耗时的过程,尤其是当特征数很大时。我们开始使用主成分分析,它是一种数学过程,在蛋白质二级结构预测的神经网络中将相关的变量转换为顺序的无关的蛋白质。主成分分析能用于降低共轭梯度算法在预测蛋白质二级结构时训练神经网络的计算费用。共轭梯度算法是一种搜索方法,能用于在共轭方向上最小化网络输出错误。训练神经网络是为了识别位于已知的二级结构中的氨基酸的模式和将这些模式与不在二级结构中的其他模式区别开来。神经网络的输入层编码氨基酸序列中的一个移动窗口和预测窗口中的中心残基。可能的窗口的大小为5,7,9,11,15,17,19和21。基于二级结构的统计相关性,预测点的任意一边最多有8个残基,因此最大的窗口大小设为17。单序列信息作为神经网络的输入特征。单序列信息中,每个窗口位置中的每个氨基酸被一个有20个输入的向量编码,每个输入对应在那个位置上的每个可能的氨基酸类型。在每个向量中,对应在那个窗口位置上的氨基酸的类型的输入被设置为1,所有其他输入被设置为0。特定位置打分矩阵PSSMs也被考虑为输入特征。在特定位置打分矩阵中,每行对应一个氨基酸残基。基于具体的窗口尺寸的神经网络的输入向量形成了对应于在具体窗口位置上的特定的氨基酸的特定位置打分矩阵的行。我们尝试过大小为17和15的不同滑动窗口,以及沿着序列移动的13个氨基酸残基。选择窗口大小为15是依据关于蛋白质二级结构的最新研究,此研究推断,提供高精度的最优窗口大小为15。选择窗口大小为17是由于二级结构的统计相关性,即预测点任意一边最多有8个残基。选择窗口大小为13,则是因为检测当选择的窗口大小小于15时,查看预测效果是否会下降。每一个窗口中的序列,以使用SCG方法识别二级结构的神经网络训练方法的输入的方式,被读取和使用。神经网络模型包含3层处理单元:输入层,输出层和隐蔽层。输入层读取序列,每个氨基酸残基一个单元,并且向在该位点的氨基酸传递信息。当窗口大小为17时,输入层包含R=17*20个输入单元。隐蔽层对输出信号进行加权,并发送到3个输出单元,分别表示预测的α螺旋、β折叠和循环或窗口中央次级氨基二级结构的卷曲。当输出信号接近1表示预测的氨基酸拥有相应的结构,弱信号接近0时则没有预测。NN的输出层由3个单元构成,每一个用于所考虑的结构状态,这是使用一个二进制编码的方案。用来表示氨基酸二级结构的目标矩阵,首先从与滑动窗口对应的所有可能子序列的结构分配的数据获取。然后,考虑每个窗口的中央位置,并使用二进制编码,100α螺旋,010β折叠,001循环,转换相应的结构分配。使用主成分分析时,被提取的成分数等于被分析的变量数。因此,有必要确定有多少个成分是真正有意义和值得保留的。每个主成分表示原始变量的线性组合,其中第一主成分被定义为变量的所有线性组合之间的最大样本方差的线性组合。接下来的主成分,代表了解释最大样本方差的线性组合。由于主成分(PCs)之间不相关并且有序,那么开始的少数主成分能够说明总体方差的最大数目,或者换句话说,只有开始的少数成分可以说明方差的意义,而以后的成分则只是说明不重要的方差。有一些通用的规则来选择保留多少开始的主成分。但是,被解释方差的累积比例(例如95%)应该用于决定保留多少开始主成分。在数据集中,对变量影响最小的成分将被去除。为了预测蛋白质二级结构,我们在MATLAB中编写代码建立一个神经网络。数据集中60%用来训练,20%验证,20%作为测试。通过减少数据维度的方式,我们比较了不同情况下对神经网络进行训练所需的时间。此外,我们比较使用PCA减少数据维度前后的预测精度。实验结果显示,在RS126的蛋白质序列中,PCA能够减少训练神经网络所需的时间,但并不影响预测精度。其次,我们提出了逻辑回归和核心逻辑回归方法预测p转角。用于评价预测性能的指标包括测试检验一致性的指标和用于评价p转角预测的指标。具体包括Qtotal(预测精确度)、Qpredicted(正确预测的概率,指在被预测的转角中正确预测到的转角的百分率,也称为阳性预测值)、Qobserved(敏感度或覆盖率,指观察到的p转角中被正确预测到的p转角的百分率,或者全体被正确预测到的阳性样本的分数)和MCC(马修相关系数)。我们首先将逻辑回归用于不同的特征集合。然后,我们使用核心逻辑回归(由于其计算要求,以前还没有被用于预测蛋白质二级结构和p转角。)。然而,不像支持向量机和神经网络,核心逻辑回归基于最大似然参数(它是额外的预测类标识)产生后验概率。FS-KLR是适合大数据集的核心逻辑回归的快速实现,它能用于有效地在蛋白质中预测p转角,产生的结果比目前的其他方法要好。我们在BT426数据集上测试了LR模型。BT426数据集包含了426个非同源的蛋白质链。一些研究人员已经用这个数据集作为性能评价的黄金数据集。这个数据集包括的蛋白质链的结构由X射线结晶学(分辨率小于2.0A。或更好)确定。每条链包含至少一个p转角区域。在全部23580个氨基酸中,24.9%氨基酸被指派在p转角的位置。数据集中没有序列共享了超过25%的序列标识。我们首先用PSSM和蛋白质物理和化学数据属性作为特征。查询序列程序来自国家生物技术信息中心(NCBI)非冗余序列数据库的本地拷贝,使用缺省参数,程序运行时进行三次迭代。我们使用VB.net完成该任务,其中参数被传递给一个自动运行于psiblast程序的本地拷贝的函数。我们在PSSM特征矩阵(它随氨基酸序列移动)上使用滑动窗口大小为7的氨基酸残基。该窗口大小的选择与Shepherd等人的一致。它们发现当窗口大小为7或者9时,β转角预测为最优。使用窗口大小为7时,则有140(7*20)个参数(表示PSSM中行的元素),和42(2*21)个参数(表示窗口中残基之间的物化反应)。用来表示PSSM和物理和化学相互作用的变量应为独立变量,总共140+42=182个特性,并且需要预测的参数个数为183(包含拦截)。数据元素的个数依赖于用来预测参数的序列个数,但是应大于特征的数目。在这种情况下,数据中有足够的信息评估最佳拟合数据的参数的唯一值。取得的结果不是我们所需要的,所以我们试着使用LR包的整体效果,程序运行如下:(i)初始化数据集T(ii)从数据集中采用可替代的方式(其中的一些可能被反复抽到,而另外一些可能根本就不会被抽到)随机抽取样本(自举)(iii)使用此子训练数据集训练分类器(iv)重复以上步骤K次,得到K个分类器(v)使用聚类方法聚类K个分类器我们首先采用替代的方法从原数据集中建立了100个随机样本,然后随机将数据随机地划分到训练集70%和测试集30%。通过训练集,采用最大似然估计(MLE)对LR参数进行估计。我们观测的最后预测值,作为100样本预测的平均值。使用LR包的总体效果仍然不是很好,因此我们使用PSSM和预测的二级结构作为特性,代替物理和化学属性。但结果仍然不太好,于是我们使用PSSM和被预测的二级结构作为特征而不是物理和化学属性。被预测的二级结构特征来自PROTEUS,包含三种结构状态:螺旋、绞股、卷曲。螺旋、绞股、卷曲被分别编码为100、010和001。此外,滑动窗口大小为7,残基被使用在由PSSM和预测的二级结构所组成的矩阵上,并对中央残基进行了预测。当使用的窗口大小为7时,有140(7*20)个参数,表示PSSM行中的元素,有21(3*7)个参数,表示预测二级结构,变量表示PSSM,独立变量表示预测的二级结构,总共有140+21=161个特征。需要预测的参数个数162(包含拦截)个。使用被预测的二级结构特征和PSSM导致了预测性能的大幅度改善。获得的Qtotal、Qpredicted、Qobserved和MCC分别是80.93%、64.17%、53.19%和0.46。这意味着蛋白质物理和化学属性不是有效的特征,不能改善二级结构预测的性能,但是用PSSM作为特征对预测p转角非常有效。我们的方法被用于和其他类似的方法(如支持向量机和神经网络)进行比较。与其他方法相比,LR方法在解释能力、显著性和时间方面具有优势。除了426个非同源蛋白质的统一数据库(BT426),547个蛋白质序列数据库(BT547)和823个蛋白质数据库(BT823)也被用于评价我们的方法的性能。这些数据集用于训练和测试COUDES。被用的特征包括PSSMs和二级结构信息。针对二级结构信息特征,四个二级结构预测方法被用于所有蛋白质链。这四个预测方法是PSIPRED、JNET、TRANSEC和PROTEUS。二级结构被预测为三种状态:螺旋、绞股和卷曲。螺旋、绞股、卷曲被分别编码为100、010和001。二级结构信息特征按如下方式组织:(1)一个二进制值表示一个中心残基的给定二级结构预测方法的预测值,例如,如果PSIPRED预测中心氨基酸为螺旋,JNET预测它为卷曲,TRANSEC预测它为螺旋,以及PROTEUS预测它为螺旋,那么二进制值为{100001100100},使用该组织的特征总数为12。(2)可信度值来自使用四个预测方法的中心残基。可信度得分除以10,得到正规化的单位区间,使用该组织的特征总数为4。(3)一个二进制值表示使用中心和两个邻居残基的四个预测方法预测二级结构的特定配置。Here we have four patterns{1,2,3,4}.有四种模式{1,2,3,4}。如果使用特定方法预测的二级结构为卷曲{001},那么模式1的二级结构为CCC,模式2、3和4的分别为CCX、XCC和XCX,此处X={E,H}。基于这个组织的特征总数为48(4个模式*3个二级结构*4种预测方法)。(4)给定二级结构中的残基数和四个预测方法的窗口尺寸之间的比率,基于该组织的特征数为12(3个二级结构*4个预测方法)。基于二级结构信息的特征总数为76。使用该组织的动机来自文献。被预测的二级结构信息被添加到PSSMs特征中。基于PSSMs和二级结构信息的特征总数为216。类似文献,基于信息增益和卡方的特征选择方法被用于将特征数减少到90个。FS-KLR通过选择样本尺寸m使处理变得稀疏,此处m远小于核心矩阵维数。被选择的样本尺寸m来自特征矩阵,命名为原型向量(PVs)。这些PVs向量可以使用k中心聚类方法进行筛选。文献观察到Nystrom低阶近似法严重地依赖于使用界标点编码样本集合导致的量化误差,这是我们使用k中心聚类方法的原因。这意味着人们能简单地使用来自k中心(例如k-均值)算法的聚类,k中心算法能找到量化误差的局部最小值。使用k中心性聚类的PVs选择方法遇到了问题,即它们选择异常值作为原型。PVs向量数相当小,被选中代表非异常值和异常值数据的原型分式不平衡,因而分类性能不是最佳的。当PVs数增加时,KLR的性能也上升。因而,考虑移除异常值能导致更稀疏的模型。使用牛顿信任区域算法的原始空间解决了稀疏KLR问题。与其他候选算法相比,该算法产生了最好的性能。每次迭代的收敛速度和代价在低成本近似方面形成均势,因为牛顿步骤将在算法的开始被采用以及算法终结于快速收敛的全牛顿方向步骤。当m<=n时,从特征矩阵选择的成分数(m)会影响预测的精度和MCC,相对大或小的m值产生的性能不好。为了选择向量的最佳数量,交叉验证被采用,从相对较小的m开始,并逐渐增加m的值,直到再增加向量时不会改进分类的运行效果为止。为了进一步提高FS-KLR的性能,我们采用状态变化规则。在此规则中,我们考虑β转角发生在含有至少有4个相邻残基的基团中。通过对FS-KLR进行预测的结果分析之后,状态变化规则(它使预测更像β转角)推导如下:1.将分离的非转角预测转化为转角;2.将分离的转角预测转化为非转角预测;3.将与两个分离的转角预测相邻的残基转化为转角;4.如果有分离的3个转角预测,那么将KLR概率最高的相邻的非转角预测转化为转角。以上的规则必须按顺序执行。使用这些规则后,我们能够得到更好的结果,其中MCC从0.48增加到0.50当和目前使用二级结构信息和PSSMs作为特征的其他方法比较时,使用非冗余数据集的经验评价显示FS-KLR提供了优秀的结果。我们使用FS-KLR方法在BT426数据集上获得的Qtotal和MCC分别为80.7和0.50。纵观以前的有关β转角的研究,基于机器学习方法的预测器强调选择适合的特征以改善预测性能。二级结构和PSSMs被广泛用于预测并被证明是最有帮助的特征。使用这些特征,FS-KLR获得了与支持向量就类似的结果。为了设计能用于p转角预测的方法,有四个方面需要关注。这包括:(1)数据集的大小;(2)需要处理变长输入样本;(3)需要有概率结果;(4)需要执行多级分类。当数据集很大(如p转角数据)时,人们忽略了最后两个关注点,而关注选择有效处理大数据集的分类器。因为支持向量机方法被设计为能处理大规模数据集,因此,这里方法已经变成预测p转角的首选。然而,支持向量机不能解决两个直接的关注点。尽管KLR对最后两个关注点提供了优质解,但是它不适合大规模数据集,所以不能用于大规模数据集如p转角数据的分类。因为需要p转角类型的多级分类,所以最后两个关注点对p转角分类是很重要的。FS-KLR将KLR的应用扩展到大规模数据集。这种方式能解决前述的所有关注点。最后,我们提出了一种预测p转角的混合方法,它整合了支持向量机和逻辑回归方法。我们使用特定位置打分指标和被预测的二级结构作为特征。PROTEUS用来预测二级结构的特征。可以使用蛋白质形状串联的谱预测服务者(DSP)预测形状串联。除了8种状态之外,DSP定义了形状N,其中φ角和ψ角没有定义,或者没有确定部分序列的结构。形状串联特征编码为:S(100000000),R(010000000)…,N(000000001)。因为p转角大约占全局蛋白质残基的25%,p转角和非p转角的比例是1:3。因而用于p转角预测的训练集是不平衡的集合。在实验中,我们发现,如果非p转角集合被适合的聚类算法划分为三个子集,那么每个非p转角子集和p转角集合将形成大致平衡的训练集。平衡的训练集更可能被分隔在特征空间中。这是因为子集中非p转角样本的分布是集中而紧凑的。换句话说,p转角集合能被不同的超平面从每个非p转角聚类中分离。这意味着当使用每个非β转角聚类与p转角构建局部支持向量机时,有希望获得好的性能。但是,单独使用这些支持向量机的每一个却不一定是一个好的分类器。这暗示,通过有效地组合这些支持向量机,构建一个比训练全体数据的支持向量机更好的分类器是可能的。尤其是一个局部支持向量机分类器能被构建用于每个子训练集,局部支持向量机将不会受全体训练集的异构性的影响。为了胜过训练全体数据的支持向量机,我们需要有效地组合这些局部支持向量机为全局支持向量机,并保留它的局部优势。多少表决是组合几个分类器的方法之一,但是,它的主要问题是不能给每个方法加权。LR模型能整合局部支持向量机分类器并允许我们利用统计模型论的优势寻找每个局部分类器的最优权值。使用聚类模型的动机来自Yi Chang的工作。在该文献中,YiChang使用局部线性支持向量机分类器分类被选核定义的特征空间中的数据。我们使用混合方法中的k-均值聚类算法划分非p转角为三个子集,每个子集结合p转角类以创建一个子训练集。三个支持向量机分类器被使用,每个对应一个子集。我们用逻辑回归模型聚合了这些支持向量机的结果。这三个支持向量机将不会直接用于预测,但是它们将用于变量生成器。在训练和预测阶段,这些模型是不变的,全部样本进入三个模型。三个模型的分离超平面样本的符号距离被计算并保存在N*3为向量d中,此处N是实例数目。向量d将被用于作为LR模型的新的特征向量,这将平衡三个模型的响应以及计算预测概率。LR预测模型的部件是变量,它们应该被仔细选择以便能准确预测但又不过度拟合数据。在模型选择中,有两个矛盾的目标。(1)拟合好数据是复杂的。(2)解释应该简单。为了选择LR模型,我们首先考虑被评估系数的相关性。如果两个变量高度相关,我们在模型中不必两个都需要。单方变量分析被用于识别重要的变量,在LR模型中一个变量被拟合一次,然后,拟合被分析。特别地,我们考虑评估系数,标准误差、系数重要性的似然比检测。我们利用在单方变量分析中选择的变量按照如下过程拟合LR:●我们使用Wald统计在LR模型中验证每个变量的重要性。●我们比较了每个变量的系数和仅包括一个变量的模型的系数。●任一表现为不重要的变量都被评估,一个新的模型被拟合。新模型被检验是否与老模型有重要区别,如果是,那么被删除的变量就是重要的。●删除、重新拟合和验证过程被反复进行,直到所有重要变量被包括在模型中。●我们试着拟合了线性LR模型,但是发现预测误差很大,于是,我们考虑用分式多项式进行指数转换。●每一对变量之间的一列可能的相互作用被创建。在包括了所有主要影响的模型中,这些相互作用每次添加一个,用似然比检测评价它的重要性。重要相互作用被添加到主要影响模型中,它的拟合情况用Wald测试评估,LR测试用于相互作用术语,任一非重要相互作用被采用。分式多项式被用于使LR模型适合最终的结果变量(它是p转角/非转角反应)。在我们的混合模型中,这个变量依赖于逻辑回归模型中三个支持向量机分类器的结果。三个支持向量机分类器的结果由向量d=(d1,d2,d3)表示。自然开始点即直线模型b0+b1d1+b2d2+b3d3或b0+dB(此处B是参数向量)首先被测试是否适合。为了改善拟合效果,我们研究了其他模型。我们通过拟合一阶分式多项式寻找非线性关系。最佳次方转换dip被发现,指数p是从候选集合{-2,-1,-0.5,0,0.5,1,2,3}中挑选出来的,d0指logd。集合包含直线(非转换)p=1。变量di包含非正值,因而我们将其转换为正值。这使对数和负指数转换变得可用。包含更多的指数通常仅仅在拟合模型中提供了轻微的改善。尤其在包括大的负指数如-3时,会出问题,个体的极端观察将对拟合产生严重影响。一级分式多项式对我们的数据提供的拟合情况不令人满意,所以我们考虑二级分式多项式。我们使用封闭测试程序,它通过选择前面提到的集合中的指数变换p和q首先确定最佳拟合二级多项式。因为数学限制,当p=q时,模型中的变量di被写为bjdkp+bkdip log(di)形式。那些组合中的最佳拟合被定义为最大似然或相当于最小偏差。此处用MRP包(它是一组R函数集合,目的是要分式多项式建模回归模型上的连续变量的影响)查找指数p和q的组合中的最佳拟合。MFP将序列的封闭测试选择程序用于单个的连续变量。用于β转角预测的方法使用不同的PSSMs和PSS组织。一些研究者在PSSMs上使用滑动窗口,然后,增加PSS。另外一些研究人员采用PSSMs和PSS。在我们提出的方法中,对两种方法都进行了测试。结果显示,使用基于PSSMs和PSS的滑动窗口的H-SVM-LR方法比仅使用基于PSSMs的滑动窗口,然后再增加中心氨基酸的PSS的方法好得多。当使用PSSMs和PSS作为特征时,混合方法在BT426数据集上获得的MMC是0.56,Qtotal是82.87%。这些值比现存其他最好的方法获得的相应值都要高。我们的方法在数据集BT547和BT823上获得了最高的MCC和Qtotal值。另外,当混合方法包括了形状串联特征时,它显示了很好的性能。