基于序列信息的DNA结合蛋白质预测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:nieguangyi127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着蛋白质测序技术的不断进步,人类对蛋白质的序列和结构的认识得以不断深入。但快速增加的蛋白质序列数据,给蛋白质结构和功能的自动预测提出了巨大挑战。在大量的蛋白质中,DNA结合蛋白质是指一类可与DNA结合产生复合物的蛋白质,是细胞各项生命活动不可缺少的物质。对DNA结合蛋白质的预测可以快速有效地发现DNA结合蛋白质,促进药物蛋白质靶标的快速识别以及计算机辅助药物设计的研究。DNA结合蛋白质的预测问题大体可分为两类,即结构已知的DNA结合蛋白质预测和结构未知的DNA结合蛋白质预测。应用已知结构特征进行预测可获得较高的预测正确率,但是由于生物体蛋白质组中绝大部分蛋白质的结构未知,因此此类方法不适用于高通量蛋白质功能预测。本文重点研究结构未知的DNA结合蛋白质预测问题,即基于序列信息的DNA结合蛋白质预测。本文从蛋白质向量化方法和机器学习的角度研究DNA结合蛋白质预测。本文的主要工作包括:第一,研究了基于Top-n-gram的蛋白质向量化方法在DNA结合蛋白质预测上的应用。在此部分,首先研究了该方法将不同维数的蛋白质序列频率谱转化为相同维数的特征向量的具体步骤,最后计算了该方法产生的各特征的判别贡献权重并分析了其中的重要特征;第二,提出了一种基于位置特异性分数矩阵距离转换(Position-Specific Scoring Matrix DistanceTransformation,PSSM-DT)的蛋白质向量化方法,用于DNA结合蛋白质预测。实验结果表明PSSM-DT方法不仅能够提高预测的性能,而且抽取出的特征具有清晰的生物学解释。结合上述两种蛋白质向量化方法建立了一种组合向量化方法,实验结果显示组合向量化方法进一步提高了预测性能。第三,研究了基于集成学习和上述两种蛋白质向量化方法的DNA结合蛋白质预测方法。实验结果显示该预测方法的性能明显优于现有已知系统。同时,实验分析显示本文提出的两种蛋白质向量化方法具有互补性,当二者与基于集成学习技术的预测方法结合使用时可获得最佳性能。
其他文献
近年来,纳米材料的大量生产和广泛应用使其生物安全性受到越来越多的重视,如何有效、准确地评价纳米材料的生物毒性是当今研究的热点问题。藻类作为水环境中的初级生产者,担
<正>大学生群体是青年中最为活跃的一个群体,他们获取信息的方式正在悄然发生着质的变化。许多学生在遇到压力、困惑时往往通过网络表达心情、舒缓压力,或者通过网络寻求他人
实践中出现越来越多的没有进行结婚登记而像夫妻一样长期稳定同居生活的案例,同居者之间的财产问题、继承问题、子女问题等常常成为人们发生纠纷的缘由。而实践中对这些问题
随着国际贸易的进一步发展,各行各业均面临着新型贸易壁垒,辽宁省农产品出口也不例外。本文通过分析辽宁省农产品出口的现状,系统地阐述了新型贸易壁垒的内涵及特征,深入地分
通过掺入一定量的钢纤维材料,可以改善和增强其薄弱的抗弯拉、抗剪、阻裂及耐磨等性能,为水泥混凝土路面的发展应用创造新的空间。本论文取得了以下研究成果:1)钢纤维混凝土
随着经济高速发展、工业化水平的提高和人类生活的影响,湖泊污染和富营养化问题日益严重。分布在东部平原的一系列大型浅水湖泊发生了不同程度的水体富营养化,藻类大量繁殖,
经过10年发展,中国高校创业教育积累了一定的经验。但与中国社会经济的巨大需求相比,高校创业教育发展明显滞后,大学生创业意识不强、知识欠缺、能力薄弱。中国学校创业教育
为解决塔山矿区段煤柱造成资源浪费严重、巷道矿压显现强烈等问题,采用相似模拟的方法对特厚煤层综放工作面回采后侧向支承压力分布特征进行研究,为塔山矿沿空掘巷煤柱留宽度
"天人合一"在庄子那里既是一种哲学境界,也是一种审美境界,在这种境界中,最为核心的内涵就是人与自然的和谐说。而这种和谐在我国传统建筑文化中早已被潜移默化地融入其中,形
研究图像边缘分割问题,提高分割的准确性。针对图像中物体像素与其边缘像素容易发生像素粘连,粘连部分由于发生像素灰度混合,造成像素差异极小,传统的基于灰度的边缘检测算法