基于多源异构特征融合的LncRNA亚细胞定位预测与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:gxx0103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长链非编码RNA(long non-coding RNA,lnc RNAs)是一种重要的非编码RNA,在人类基因转录调控、细胞生长、分化、繁殖等生命活动中起着重要的作用。同时,lnc RNA的保守性相对较低,使得其功能研究变得更加困难。现阶段,lnc RNA的表达性差异分析和lnc RNA与蛋白质的共表达分析可以用来预测lnc RNA的功能,但传统的生物实验方法过于昂贵和耗时,且往往需要更为严格的实验条件。一些统计计算方法虽然预测效率很高,但假阳性率也很高。细胞作为生命的基本单位,考虑到各细胞器在生命活动中的不同职责,lnc RNA在各细胞器上的定位是预测lnc RNA功能的好方法。基于计算的方法可以非常有效地预测lnc RNA的亚细胞定位,从而分析lnc RNA所行使的功能。细胞器的种类是多样的,所以lnc RNA的亚细胞定位实际上是一个多分类问题。但是由于缺乏实验数据,一些亚细胞定位区域的lnc RNA序列数量较少,使得不同细胞器定位区域的序列数目差异很大。数据的不平衡性导致机器学习模型对小数据子集的识别效果较差,这是现有研究中一个具有挑战性的问题。为了从全局多层次的角度来描述lnc RNA序列,本文结合多源异构特征构建了一个基于序列的计算工具来预测lnc RNA的亚细胞定位。lnc RNA序列的多源异构特征包括k元组特征、基本lnc RNA特征、理化性质和多尺度二级结构特征。为了探索它们对lnc RNA亚细胞定位靶点的有效性以及在不同机器学习模型下的表示能力,我们使用了多种机器学习模型对这些特征分别进行测试,包括支持向量机、随机森林和逻辑回归三种传统机器学习模型,基于boost策略的XGBoost和light GBM两种集成框架以及深度神经网络和卷积神经网络两种深度学习框架。实验结果表明,不同的特征包含不同的lnc RNA内容,lnc RNA序列可以从不同的层次和角度进行描述。为了消除由数据不平衡引起的预测偏差,提高小样本数据集的表示能力,我们采用多种特征筛选方法对特征做进一步处理。由于特征的维数和冗余度不同,本文将这些特征分为两类。对于原始的k-mer特征,采用基于超几何分布的滤波法进行处理;对于剩余的特征,在通过使用自动编码器进一步特征提取之后,采用递归特征消除算法进行特征筛选。通过使用不同的机器学习模型对两种特征及其组合进行测试,讨论了特征选择方法的有效性,验证了该方法可提高数据的表示能力,减少由于小样本导致的多分类数据不均衡和预测性能差的问题。本文提出了基于多源异构特征融合的lnc RNA亚细胞定位预测方法,使用多层分组的特征强化与筛选方案,在支持向量机(Support Victor Machine,SVM)作为预测器的基础上构建了预测模型。模型包括了一个核酸序列扫描输入端,四个种类的特征提取算法模块,两个基于全连接神经网络的自动编码器,两个属性查找表以及一个经过严格参数调整的支持向量机分类器。使用该方法在基准数据集上进行5折交叉验证,最终获得了87.78%的准确率。在20%的独立留出验证集上达到了89.69%的预测精度,相对精度比现有的工具高出三个百分点,特别是对拥有较小数据的分类子集而言,分类性能得到了显著提高,细胞质的查准率相对提高了25.59%,查全率相对提高了0.94%,核糖体的查准率相对提高了0.17%,查全率相对提高了19.45%,外泌体的查全率相对提高了48.98%。同时,对不同模型下不同特征的预测结果进行了讨论,揭示了不同特征和模型对lnc RNA亚细胞定位的有效性。由于标记的lnc RNA亚细胞定位的数据量较小,深度学习模型作为预测模型的预测效果相对较差,但是基于深度学习模型的特征提取方法可以在一定程度上增强lnc RNA数据的表达能力,从而提高预测的准确率。同时本文也利用该模型做了实际应用,包括在人类规模转录组上的lnc RNA亚细胞定位预测,开发了相关的Web Site和开源工具包,供感兴趣的科研人员选用。
其他文献
近些年电商以及经济的高速发展促使我国成为一个物流大国,使得我国公路运输快速发展。不断壮大的公路运输保证了我国经济的快速发展,但公路运输仍有急需解决的问题:(1)商用车司机短缺问题;(2)能源消耗问题;(3)商用车交通事故问题。为解决上述问题,汽车智能化提供了新的解决途径,商用车队列行驶作为其中一种解决途径在近些年逐渐成为研究热点。虽然商用车队列在节能减排、减少交通事故和解决司机短缺方面具有显著优势
随着我国GDP的快速增长,汽车逐渐走进千家万户,在汽车保有量快速扩张的同时,对4S店的售后服务也提出了更高的要求,售后水平的优略高低和维修服务满足度息息相关,因此,保持合理适当的备件库存量就显得尤为重要。基于对ABC分类法的深入研究,分析了汽车4S店备件库存目前存在的问题,对备件进行库存分类并制定相应的订货策略,建立备件库存优化模型,降低汽车4S店的库存成本,提升竞争软实力。
地幔不均一性是当今地球科学领域内的重大前沿问题,对原始不均一性起因的探讨关系到地球起源问题的基础理论。本文通过建立世界主要古老克拉通变质基性岩数据库,结合国内中条山-吕梁山野外采集样品测得的锆石U-Pb年龄及相关地球化学数据,选择合适的古老克拉通进行对比研究,继而探讨原始地球化学不均一现象及其起因,为欧阳自远团队建立的原始地球的两阶段不均一星子堆积模型提供更多成果支持。锆石U-Pb年代学研究显示,
美育是新时代中小学教育科研中的重要课题,如何将美育思想渗透校园活动中,实现全面和谐育人,促进学生个性化发展,在学校活动中将艺术与德育两者有机结合,以艺育德,陶冶学生道德情操,以艺启智,促进学生全面发展。新时代,对中小学美育提出了更高的要求,美育不是机械的,中小学美育不仅仅是传统的音乐教育、美术教育,美育具有特殊性,美育更重要的是培养学生对于人生的态度,提升学生的人生境界。一、新时代,对中小学
期刊
探地雷达(Ground Penetrating Radar,GPR)是一种基于电磁反射信息的非常适用于浅层目标探测的一种无损探测工具。常规的探地雷达大多是单极化雷达,由于采集方式的限制,只能采集到一种共极化信息,得到的信息量很有限,也很难满足某些复杂环境下工作的需求。而全极化探地雷达(Full-polarimetric Ground Penetrating Radar)既能采集到共极化信息又能采集
印度板块和欧亚板块持续不断的陆陆碰撞过程形成了全球规模最大、海拔最高的高原——青藏高原。雅鲁藏布江缝合带是大体沿雅鲁藏布江河谷分布的一条狭长的、经过强烈变形、变质的印度板块与亚洲板块碰撞的前缘结合处,被认为是新特提斯主洋盆遗迹所在,被誉为陆陆碰撞深部构造研究的天然实验室。国内外学者在雅鲁藏布江缝合带附近开展了大量科学研究,然而其下部地壳和上地幔结构仍旧存在较大争议,印度板块岩石圈的俯冲模式仍不清晰
乡村振兴战略是新时代做好"三农"工作的总抓手,产业融合是实现乡村振兴的重要途径。贵州仁怀市以茅台酒为引领,设,从实现产业、文化、生态、人才à、组°织?全面振兴的角度探索酒旅融合发展助推乡村振兴的路径,从政策、机制、资金、人才方面构建酒旅融合助推乡村振兴的保障体系,为我国西部地区城镇反哺农村,工业反哺农业,三产融合发展,县域经济助力乡村振兴,提供现实依据。
当前在我国城市化进程速度加快,城市化人口数量增多,机动车数量也逐年增多的背景下,人们出行成为一个重要的问题,越来越多的互联网公司和研究机构在出行领域投入巨大人力、物力、财力对出行路径规划和道路拥堵情况进行研究,比如百度地图,高德地图,滴滴出行等公司。目前,针对道路交通状态时空预测的研究有很多,本文使用的数据集为滴滴公司提供的2019年7月份西安市城市道路交通状态数据集。数据集存在数据量大,数据维度
网络表示学习旨在学习一种映射关系,可以将网络中的所有节点映射为低维的向量表示,从而提取到节点的特征并进行网络分析。近几年,越来越多的网络表示学习方法涌现出来,已有的方法大多数只是面向静态网络进行研究,然而,在真实网络中,网络的结构及属性通常是随时间而不断变化的。因此,如何利用网络动态变化的拓扑结构以及属性信息挖掘复杂网络随时间变化的特性,对动态网络中的节点进行表示学习,以保证所学节点表示能够刻画网
防碰撞预警系统作为高级驾驶辅助系统的重要组成部分,主要用于协助驾驶员通过预警潜在的碰撞情形来减小车辆碰撞的危险。通过识别技术或通信的方式检测周围车辆的相对距离和速度,可以实时判断车辆是否处于安全状态,并将预警信息通知给驾驶员,驾驶员根据预警信息采取相应的措施,确保车辆的安全行驶。目前的前向碰撞预警算法已经相对比较完善,而交叉路口由于其复杂的结构、不同的场景和众多的数量,一直以来都是碰撞预警系统研究