基于序列特征和图嵌入信息的m6A位点识别方法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:qianxiaoping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
N6-甲基腺苷修饰也称为m6A修饰,是一种广泛存在于真核生物的mRNA和长非编码RNA上的高度保守的转录后碱基修饰。研究表明m6A修饰与许多生物学过程有关,包括且不限于蛋白质的翻译与定位、mRNA的剪切和稳定、RNA的定位和降解等。因此,准确识别RNA序列上的m6A修饰位点具有非常重要的生物学意义。传统的湿实验方法检测RNA中的m6A修饰位点面临着诸多局限性,例如需要耗费大量的时间和金钱、实验处理的过程复杂以及难以进行大规模的位点识别等。近年来研究人员提出了多种基于机器学习的m6A修饰位点计算模型。在计算模型的构建中,序列特征编码方法的选择是影响其性能的关键因素,但是大多数的序列特征编码方法都是直接基于单个RNA序列提取特征,只有少数方法分别从正负样本集中提取统计信息,很少从整个数据集和从样本的关系之中挖掘更多有效的信息,样本相似性方面的分类特征信息没有被充分利用,因此计算模型的预测性能存在进一步的提升空间。基于上述问题,本文提出了一种基于传统序列特征和图嵌入信息的m6A修饰位点识别的计算方法。本文使用了m6A修饰位点识别的计算方法中常用的七种序列特征编码方法:核苷酸组成转换分布特征、k间隔核苷酸对频率特征、核苷酸物化性质密度特征、核苷酸对位置特异性特征、双谱贝叶斯特征、电子-离子伪势能特征和伪k元核苷酸组成成分特征。之后引入快速邻域相似度计算方法,基于序列特征构建了样本相似度网络,通过SocDim、node2vec和GraRep三种图节点嵌入算法学习网络中每个样本的图嵌入特征。最后将序列特征和图嵌入特征拼接为一个输入向量,基于CatBoost分类器训练了计算模型,将此计算模型命名为m6AGE。该方法首次在m6A修饰位点识别的计算方法中将传统序列特征编码方法和图节点嵌入算法结合起来,通过在样本相似度网络中使用三种图节点嵌入算法以无监督的方式充分学习每个样本的图嵌入特征,特征中包含了从数据集全局获得的样本与样本之间的潜在关系信息,因此图嵌入特征可以作为序列特征的重要补充进一步提升计算模型的分类性能。本文收集了四个m6A修饰位点数据集,这四个数据集共涉及三个物种:拟南芥、酿酒酵母和人类。利用这四个数据集,对计算模型的特征组合、分类器选择、与其他现有计算模型的比较和在正负样本不均衡的数据集上的性能等方面进行了对比实验,进一步验证了本文提出的方法在识别m6A修饰位点方面的有效性。为了使本文提出的模型能更方便地被研究人员们免费使用,本文基于提出的m6A修饰位点识别方法构建了一个在线预测系统(http://www.m6age.cloud)。
其他文献
利用固体废弃物作为原材料的新型混凝土,具有固废资源再利用、节能减排等诸多优势。目前对于以地聚物(Geopolymer)为胶凝材料的混凝土和以煤矸石为集料的混凝土相关研究已经颇为成熟,但以地聚物为胶凝材料,以煤矸石为集料的混凝土相关研究还不多见,特别是在其宏观力学性能与微观层面界面过渡区(Interfacial Transition Zone,简称ITZ)方面的研究较为薄弱。本文以水胶比(0.35、
学位
<正>研究目的:在"双减"政策落地成功后,众多学校推出了"5+2"的课后延时课程服务。在"双减政策"的大背景下,"校园足球"迎来了了发展的新契机,对"校园足球"新路径的探索与思考也显得尤为重要。正确的理论能够更好地指导实践。通过剖析"双减"政策背景,针对校园足球的现状,深化校园足球发展道路,对其发展路径进行重新的审视、探索与思考。
会议
如何建立一个能够用结构来表示隐藏在领域知识内的分类模型是人工智能领域内的一个关键问题。贝叶斯网络(Bayesian networks,BNs)为不确定性背景下的推理提供了一种紧凑直观的图形表示,并已成为许多概率专家系统的基础。然而,学习一个拥有最优的网络拓扑结构的贝叶斯网络已经被证明是NP-hard问题。自从朴素贝叶斯(Naive Bayes,NB)在良好的分类表现和最小时间开销两方面取得优良平衡
学位
为减小低温对酵母的损伤,提高冷冻面团品质,本课题以馒头酵母、面包酵母为研究对象,考察四种抗冻保护剂(抗冻蛋白、海藻糖、甘油及大豆分离蛋白)对两种酵母的保护作用,通过单因素及响应面优化出最佳复配保护剂配方,并探讨其对酵母及冷冻面团的影响。以活菌率和脯氨酸含量为指标,考察四种抗冻保护剂:甘油、海藻糖、抗冻蛋白(Antifreeze proteins,AFPs)、大豆分离蛋白(Soy Protein I
学位
利用傅里叶变换红外光谱(FTIR)实验及分峰拟合技术,对3种不同变质程度煤样进行官能团的定性与定量研究,计算并分析红外光谱结构参数。结果表明:随煤样变质程度的加深,羟基官能团逐渐增大,羟基-N与环氢键含量减少,羟基-π含量增多;在脂肪烃中,甲基含量升高,次甲基含量下降;含氧官能团逐渐减小,C=O呈下降趋势,羧基在低变质程度煤中含量最高,高变质程度煤几乎不存在羧基;芳香烃逐渐减小,芳香烃主要以三、四
期刊
随着“元宇宙”概念的提出,虚拟环境交互技术不断涌现。其中沉浸式虚拟现实技术和增强现实技术是构成元宇宙中重要的一环。文本输入是虚拟环境下最基础的交互行为,然而现有方法存在诸多弊端。目前虚拟环境下主流的文本输入方式是通过手柄激光指向单键输入字符,具有速度慢、准确率低、易疲劳等弊端,不符合虚拟环境下输入需求。没有简易有效的输入方式会导致虚拟环境下应用程序主要功能缺失。文本输入、搜索、填充表单、输入数据和
学位
<正>研究目的:足球历来是我国三大球项目之一,是普及性较高且受广大青少年喜爱的一项运动。近些年由于我国受到应试教育的影响,学生参加足球运动的时间大幅缩水,进而导致青少年体质下降。"双减"政策出台后为青少年足球运动带来了新的机遇,如果我们可以把握好此次机遇,这不仅可以增强青少年体质健康、打磨足球的基本技术和理论知识,还可以促进学生全面协调健康发展。因此,本文从开展校园足球课后服务的现实困境出发,并提
会议
高层建筑结构具有柔度大、质量轻、自振周期长以及阻尼小等特点,这使得风荷载逐渐成为高层建筑结构安全和舒适性的主要控制荷载。当流体流经高层建筑结构时,流体会在其结构表面发生流动分离、再附着漩涡脱落等现象,会在柱体结构周围形成不同的扰流区域及脉动力作用,从而会可能会导致结构损伤甚至破坏。另一方面,同一流场内的多结构绕流,其流动形态复杂多变,在流场中受到的气动力作用可能会大于单一结构绕流时的气动力作用。所
学位
伴随着新课程改革的实施,以“主动参与、乐于探究、交流与合作”为特征的新型教学方式得到了关注,尤其是对低年级的学生来说,此教学方式符合其积极性高、活泼好动的身心发展特点,因此具有较高的可行性。值得注意的是,在新型教学方式贯彻落实的过程中,合作式学习取得了更为显著的成效,有效地提高了学生的体育运动积极性与竞争意识,为体育课堂营造了更为浓郁的合作氛围。为进一步研究新课程改革背景下小学低年级体育课堂中的合
期刊
随着越来越多地下空间的大规模开发和利用,在地震发生时,地下结构频繁发生破坏,隧道作为地下结构的重要形式之一,其安全和抗震设防问题引起了世界各国的关注。其中隧道结构的抗震设计主要指的是土-隧道结构相互作用的问题,而影响其最重要的因素之一为土-隧道结构相对刚度,即柔度比(Flexibility Ratio,以下简称F),因而开展F对土-隧道结构体系地震响应影响的系统性研究是一个需要迫切解决的重要研究课
学位