【摘 要】
:
随着测序技术的不断成熟,人类已经获取了海量的蛋白质序列数据,但其对应的结构和功能信息仍难以获取。从已知结构的蛋白质数据库中预测蛋白质序列的远同源关系,是解析蛋白质结构和功能的重要环节。然而,因远同源蛋白质序列相似性普遍低于30%,导致现有的方法在此问题上难以获取准确的预测结果。因此,如何提高蛋白质序列搜索方法在远同源性检测问题上的预测性能,是一个具有挑战性的科研任务。本文以序列搜索基方法存在的非同
论文部分内容阅读
随着测序技术的不断成熟,人类已经获取了海量的蛋白质序列数据,但其对应的结构和功能信息仍难以获取。从已知结构的蛋白质数据库中预测蛋白质序列的远同源关系,是解析蛋白质结构和功能的重要环节。然而,因远同源蛋白质序列相似性普遍低于30%,导致现有的方法在此问题上难以获取准确的预测结果。因此,如何提高蛋白质序列搜索方法在远同源性检测问题上的预测性能,是一个具有挑战性的科研任务。本文以序列搜索基方法存在的非同源噪音和远同源蛋白质搜索能力不足这两个问题为切入点,将构建和融合多样性的序列相似性特征作为提高方法性能的主要途径,提出了多个面向远同源性检测的蛋白质序列搜索方法。本文主要研究内容包括以下四个方面。首先,针对序列谱中非同源噪音问题对远同源性检测性能的不良影响,提出了一种可以解决非同源噪音问题的有监督迭代搜索框架SMI-search(Supervised-Manner-based Iterative framework)。该研究首先对非同源噪音的形成原因进行分析,提出了造成非同源噪音的非正确选中错误;然后,为了解决非正确选中错误,基于有监督的排序学习技术和特征相似性构建了非正确选中错误纠正模块和搜索结果优化模块;最后,将这两个模块嵌入到迭代比对框架中,提出有监督的迭代搜索框架。从基准数据集上的实验结果可知,有监督迭代搜索框架明显地提高了基方法在远同源性检测问题上的性能。表明有监督迭代搜索框架有效地解决了非同源噪音对搜索性能的影响,并具有良好的通用性。其次,针对序列比对方法对远同源蛋白质搜索能力不足的问题,提出了使用谱链接相似性代替比对相似性的远同源蛋白质序列搜索方法PL-search(Profile-link-based search method)。该搜索方法首先根据迭代比对方法的不对称性质提出了双向链接策略,从而降低序列谱中非同源噪音对谱链接质量的影响;其次,为了加强对远同源蛋白质的捕获能力,提出了迭代扩展策略;最后,基于序列谱比对思想,提出了基于双层杰西卡距离的谱连接相似性计算方法。从基准数据集上的实验结果可知,谱链接相似性搜索方法有效地提高了基方法搜索结果中的远同源蛋白质数量,并且具有更优的排序质量。表明谱链接相似性搜索方法可以有效地代替序列比对方法,提高对远同源蛋白质的搜索能力。再次,针对蛋白质序列搜索方法搜索到较多远同源蛋白质后,难以提高其排序质量的问题,在前两个方面的研究基础上,提出使用过滤和重排策略来进一步提高排序质量的双层搜索框架S2L-search(A supervised two-layer search framework)。该双层搜索框架基于不同类型序列相似性特征在远同源性检测问题上的优势,构建出过滤策略和重排策略来提高谱链接相似性搜索结果的排序质量。在过滤策略中,将有监督迭代框架和双向链接策略构建为两个过滤器,依次对高相似性搜索结果进行非同源过滤后,作为第一层搜索结果。在重排策略中,使用排序学习算法对比对相似性、特征相似性和谱链接相似性进行融合后,提高了低相似性搜索结果的排序质量,并将其作为第二层搜索结果。从基准数据集上的实验结果可知,双层搜索框架明显地提高了搜索结果的排序质量。表明双层搜索框架在有效地融合不同相似性特征之间互补性的基础上,明显增强了对远同源蛋白质的判别能力。最后,针对当前蛋白质序列搜索方法缺乏对蛋白质层级关系考虑的问题,在前三个方面的研究基础上,提出了基于蛋白质层级关系的远同源蛋白质序列搜索方法HSP-search(Hierarchical structure prediction-based search framework)。该方法首先对隐马尔可夫谱的局部到全局特征进行远同源特征提取,得到一个面向超家族层级的多分类模型。然后,基于该超家族多分类模型和蛋白质层级关系,构建出类层、折叠层和超家族层的预测特征。之后,使用多种相似性度量公式计算得到基于蛋白质层级关系的相似性特征。最后,基于该层级相似性特征对双层搜索框架中的过滤策略和重排策略进行改进。从基准数据集上的实验结果可知,HSP-search方法在基方法上取得了最优的远同源性检测性能。表明基于蛋白质层级关系的序列相似性特征可以进一步提高双层搜索框架对非同源蛋白质的判别能力,从而提高远同源性检测的性能。此外,HSP-search方法解决了双层搜索框架对SMI-search方法的依赖性问题,表现出更强的通用性。
其他文献
Ti2AlNb合金因具有密度低、比强度高和蠕变抗力好等优点,在航空航天领域的应用越来越广泛。传统工艺制备的Ti2AlNb合金板材常具有成分偏析、组织不均匀等缺点,且制备周期长、效率低。本文使用放电等离子烧结预合金粉制备合金坯料,而后在不同相区使用不同单道次压下量包套热轧的方法制备了性能良好的Ti2AlNb合金板材,该方法具有短流程、成本低等优势,主要研究轧制温度和轧制工艺对板材的组织演变和力学性能
经典的Morrey空间理论是解决偏微分方程问题的主要方法,同时在算子理论、调和分析理论中起到了关键作用。微分形式作为函数的推广,是研究流形上微积分的主要工具,在微分方程、黎曼流形、微分几何等诸多研究领域中都有着广泛的应用。随着算子理论研究的发展,微分形式上的算子不等式及有界性估计等问题成为了研究热点,引起了国内外学者的高度关注。Morrey空间与微分形式相结合,能够更好地解决微分形式偏微分方程中出
抑郁症严重威胁着人类的身心健康,已经成为一个急需解决的世界性公共健康管理问题。目前,我国抑郁症患病率为2.1%,但由于心理健康专业人员不足、患者自身“病耻感”等因素,抑郁症就诊率极低,造成抑郁症患者自杀悲剧的发生。随着网络社交媒体的发展,在线抑郁社区作为一种沟通平台,已成为抑郁症患者健康话题讨论、在线交友、医疗求助的重要渠道。大量与抑郁症作斗争的用户聚集在社区中,但许多人并没有认识到自身疾病的严重
模形式是定义在上半平面上的复解析函数,其在模群作用下满足特定的函数方程,并满足特定的增长性条件。因此模形式虽然起源于复分析,但其核心价值却与数论相伴。模形式理论是更广泛的理论——自守形式理论的特殊情形,因此其视为丰富的离散群理论的一个最具体的分支。模形式与其它众多领域紧密相连,例如:代数拓扑、球体填充、弦理论,因此模形式理论研究显得尤为重要。近年,模形式的乘积等式理论以及双参数Eisenstein
C/C复合材料具有比强度高以及热膨胀系数低等优点,是一种重要的轻质高温结构材料。Si Cf/Si C复合材料具有优异的高温力学性能和抗氧化性能,在航空航天领域的热端部件有着重要的应用。为了发挥两种复合材料各自的性能优势,扩宽其可能的应用范围,本文采用Si基高温钎料对两种材料进行钎焊研究。提出了反应熔渗结合钎焊的两步连接技术,在C/C复合材料钎焊接头中引入熔渗结构,设计了热膨胀系数梯度过渡的接头。分
电致变色超级电容器是一种新型智能储能器件,不但能进行能量存储与释放,还能通过器件颜色可视化地监测其储能状态,为多功能集成化超级电容器提供了新发展方向。WO3因兼具优异的电致变色和储能性能已在电致变色超级电容器中有很多的应用研究,但是仍存在一些问题亟待解决,例如:对储能和电致变色性能的表征不同步、反应机制不明、器件电位窗口存在负电位、容量低。鉴于此,本论文以WO3为主要研究对象,通过电化学-光谱同步
多代产品策略是一种循序渐进的产品开发和销售策略。企业通过持续改进及完善产品来满足消费者及市场的需求,进而取得竞争力。与单代产品相比,多代产品的一个特质就是代际产品之间存在时间上的关联,在产品开发和销售方面表现出更强的规划性,时间节奏更为突出。多代产品策略有助于企业适应不确定性强、竞争性强的产业环境,能够缓解企业研发资源匮乏的问题。因此。实践中,多数企业选择了小步快跑的多代产品策略来应对市场挑战。尽
反硝化型厌氧甲烷氧化(Denitrifying Anaerobic Methane Oxidation,DAMO)过程是厌氧条件下进行的以甲烷为电子供体、硝酸盐或亚硝酸盐为电子受体的反硝化过程,是全球碳氮循环的关键一环。DAMO过程在水处理领域具有巨大开发潜力,DAMO微生物不仅可以原位利用厌氧消化产生的甲烷,而且与Anammox微生物的耦合可以实现高效的脱氮,这使DAMO耦合Anammox工艺兼
防屈曲钢板剪力墙是一种性能优越的抗侧力构件,通过在传统非加劲钢板剪力墙的两侧布置平面外屈曲约束构件使结构整体耗能能力和承载力进一步提升,同时避免了薄钢板平面外过早屈曲。平面外约束构件尺寸的确定是防屈曲钢板剪力墙设计的关键问题,平面外约束构件尺寸过小,则无法有效约束钢板,影响剪力墙的抗震性能;平面外约束构件尺寸过大,则会减少建筑使用面积,增加工程造价。因此,有必要通过研究确定平面外约束构件合理的计算
随着我国煤化工行业的快速发展,副产品半焦出现严重的产能过剩,这成为制约煤化工行业发展的瓶颈问题,目前有大量半焦亟待实现燃烧利用。半焦作为燃料存在着火稳燃困难、燃尽率低和NOx排放高等问题,因此探究如何实现半焦的清洁高效燃烧意义重大。将大比例半焦与煤掺烧发电,将消纳过剩的半焦,具有广泛的应用前景。国内近年来针对半焦与煤掺烧作了大量研究,但大多在小型装置中进行实验,与实际工业锅炉中燃料射流的着火环境相