【摘 要】
:
DNA结合蛋白对DNA修复、DNA复制和DNA修改等生命过程有着重要的意义。使用X射线晶体等实验手段解决预测DNA结合蛋白的问题不仅费时且成本高。目前已经提出很多仅基于序列信息
论文部分内容阅读
DNA结合蛋白对DNA修复、DNA复制和DNA修改等生命过程有着重要的意义。使用X射线晶体等实验手段解决预测DNA结合蛋白的问题不仅费时且成本高。目前已经提出很多仅基于序列信息使用机器学习来识别DNA结合蛋白的方法。在这些方法中,关键性的工作在于构建序列的有效表达以及选择合适的分类器。衡量不同的特征与分类器的匹配程度以及不同特征的贡献这两个工作,对于预测性能的提高和生物实验的设计有重要意义。本文提出了堆叠模型来预测DNA结合蛋白,该模型结合了多类特征提取方法,也考虑了特征提取方法和分类器之间的匹配,该模型分为两层,第一层为支持向量机,第二层为逻辑回归。首先,使用四种特征提取方法分别训练第一层的SVM分类器,得到四个不同的SVM分类器,之后,使用逻辑回归结合四个SVM的预测概率,得到模型的输出结果。四种特征提取方法分别为Local_DPP,PSSM_DWT,188D以及使用自协方差提取预测的蛋白质二级结构信息的方法。前两个方法是基于序列的进化信息;188D则是基于序列的物化属性和序列组成。堆叠模型在训练集PDB1075上的准确率为83.53%,在独立测试集PDB186上的准确性为81.72%,实验结果表明该模型与现有的大多数模型相比,具有更好的性能,同时能够灵活地协调不同的预测模型使其具有更好的性能。
其他文献
皮肤作为人体最大的器官,起着保护机体和维持机体环境稳定性的作用。但是皮肤的完整性容易受到外界的破坏,导致皮肤表面急性和慢性伤口的产生。虽然在伤口的治疗过程中,医用
超分子水凝胶是一类具有三维网络结构的软材料,是由小分子通过氢键、疏水作用、静电相互作用和π-π相互作用等非共价键作用聚集形成的。由于其主要通过非共价键作用形成,所
黄土是研究过去环境演变的重要信息载体。六盘山地处我国半干旱-半湿润气候的过渡带,同时也是我国东亚季风与西风的交汇地区,对环境变化的响应比较灵敏。六盘山南段以西有大
在循环载荷的作用下,复合材料板易产生疲劳损伤,引起位错和裂纹萌生的微观变化,降低结构强度,若不能进行及时检测与评估,裂纹损伤将在负荷下加速扩展,甚至造成结构性断裂,引
设B是一右R-模类.本文首先引入投射余可解的n-强Gorenstein B-平坦模,讨论了这类模的同调性质;其次,引入了相对于对偶对(x,y)的n-强Gorenstein平坦模;同时,给出了相对于完全
近年来,合成生物学领域发展迅速,并取得很多研究成果,这些研究成果大多以文献的形式存在。为了解领域发展趋势,发现影响领域发展的重大事件,并对事件之后领域发展走向进行分
环境变化是人类发展的重要背景,也是人类史前文化兴衰的重要推动因素。研究过去全球变化(PAGES:Past Globe Changes)与人类适应的关系,对于目前全球变暖背景下的人类社会的响
石油工业对于我国的经济发展和军事战略十分重要。我国虽然领域广阔,但石油资源十分匮乏,人均占有量很低,所以能源效率的提高对于我国十分紧要,而其中能源数据建模和效率评价则是必不可少的环节。乙烯生产在石化行业占有十分重要的地位,本文以乙烯生产为例进行研究。传统的能效评价方法如数据包络分析(DEA)无法对有效决策单元进行区分,并且没有考虑到在乙烯生产过程中诸多外在环境因素对效率的影响。因此,本文提出了一种
本文运用构造法,通过群G来构造强正则图ΨG,并进一步研究得到所构造强正则图ΨG的一些性质,结合配型理论证得概型χG是舒尔的一个充要条件.对于任意群G(|G|=m),可由群G构造强
钛基复合材料具有高比强度、高比模量和良好的高温性能等优点,契合航空航天和高性能汽车等多个领域对于轻质耐热高强结构材料的要求,呈现出巨大的应用前景。但传统增强相均匀