一种基于不平衡数据分布框架的lncRNA亚细胞定位方法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:mj3140
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
lncRNA是由200多个核苷酸组成的RNA并且无法翻译成蛋白质。大量证据表明,lncRNA在细胞的整个生命周期中发挥着不可或缺的作用,如细胞周期调控、染色质修饰、遗传标记、转录、剪接、基因组重排、mRNA衰变和翻译等。位于细胞核lncRNA通过染色质调节多种基因的表达。例如,morbid是一种核定位的lncRNA。位于胞质溶胶中的lncRNA主要充当转录后调节因子。同样,lncRNA-HGBC,一种细胞质定位的lncRNA,被认为是GBC程序的目标。LncRNA RP11-732M18.3可通过的14-3-3β/α蛋白相互作用促进胶质瘤的治疗。参考上面的例子,我们将意识到lncRNA的亚细胞定位与其功能之间的关系。首先,有许多生物学方法可以识别lncRNA的亚细胞定位。例如,将RNA从细胞核和细胞质中分离出来,并使用RT-PCR定位某个lncRNA。荧光原位杂交(FISH)技术可以在基因组中的功能位点标记lncRNA。由于计算机技术的发展,许多计算方法应运而生来解决lncRNA的亚细胞定位问题。然而,生物学方法或计算方法操作繁琐或不实用,并不能很好地解决LncRNA的亚细胞定位问题。在本文中,我们提出了一种名为IDDLncLoc的新模型,通过集成模型预测lncRNA的亚细胞定位。在IDDLncLoc中,引入了序列特征的集成框架。该框架由五个部分组成:少数样本中的过采样、多数样本中的随机采样、重组为新子集、在新子集上进行训练以及整合输出。首先,我们从RNALocate中收集lncRNA样本并整理出一个基准数据集。之后,我们采用了三种特征来描述lncRNA序列,包括八聚体、基于二核苷酸的自交叉协方差(dinucleotide-based auto-cross covariance)、组成、转换和分布特征(composition,transition and distribution),并通过二项分布系统地处理特征选择和递归特征消除(recursive feature elimination)找出最优特征。我们也提出了一种新型的CNN网络结果,叫做AFCNN(Attention Fast Convolutional Neural Network),其中包括了空间注意力机制全新网络结构。最后,基于包含21个AFCNN和20个SVM的集成模型,我们通过随机过采样和欠采样在基准数据集上生成41个子集,结果通过投票策略输出。最终准确率在基准数据集上达到94.96%,比时下最优的lncloc Pred高2.59%。
其他文献
随着科技的进步,人们之间的信息交流越来越密切。在日常生活和行业中,都离不开信息的交互,因此人们对安全信息越来越重视。传统的认证方式不足以满足保护个人数据安全的要求。随着计算机技术的不断提高,虹膜身份识别技术凭借着防伪性、不可侵犯性以及更高的稳定性引起了国内外学者的关注。虹膜定位是虹膜识别系统中一个极其重要的步骤,这一步骤的目的是为了过滤掉无效的信息,定位出虹膜图像中内边界和外边界。目前的一些虹膜定
学位
随着我国汽车工业的蓬勃发展和国民收入的提高,我国的个人汽车保有量逐年增加,根据中国公安部的数据,截止2021年末,中国的汽车保有量为3.02亿辆,与此同时,我国各大城市的停车位建设相对滞后,大量一二线城市的停车位置相对不足,因此日常出行中常常将时间浪费在停车位的寻找之中,造成一系列交通问题。如今,V2X、AI以及云端计算等技术飞速发展,实现现代交通就离不开车路云的协同,通过把车端、路端以及云端的信
学位
皮肤黑色素细胞恶性病变导致的黑色素瘤在晚期具有极高的致死率,因此,黑色素瘤的早期诊断与治疗至关重要。目前,色素性皮肤病变的主要诊断方式是通过使用皮肤镜来呈现皮肤病变区域清晰的病理特征,再由专业的皮肤科医生依据丰富的临床经验对皮肤镜的检查结果进行判断。该方法主要依赖于医生的临床经验,具有一定的主观性,而且对大量病人进行诊断是一个繁琐耗时的过程。通过构建针对皮肤病变的计算机辅助诊断系统协助医生进行诊断
学位
自2008年以来,区块链的去中心化、可追溯性和不可篡改性等特点吸引了学术界和工业界的极大关注。然而,较低的交易确认吞吐量在客户端和交易数量增加的情况下,成为了区块链广泛应用的显著障碍。除了网络延迟之外,吞吐量较低问题的根本原因是区块链的共识协议涉及所有的节点。每个节点都需要验证和存储所有的交易。每个共识消息都需要在整个区块链网络中广播。随着区块链技术的进一步发展,研究区块链可扩展性的工作越来越多,
学位
数字乡村建设是促进中国乡村振兴的关键战略方向。本文基于2011—2019年30个省份面板数据构建了中国数字乡村发展水平指标体系,使用熵值法、泰尔指数、莫兰指数等研究方法对数字乡村发展的时间演变、区域差异及空间分布特征进行了探析。研究发现:中国数字乡村发展水平正逐步提升,但存在较大区域差异,基本呈“东—中—西”递减状态,且粮食生产环节较多得益于数字乡村发展红利;区域总体差异基本呈缩小趋势,四大区域的
期刊
核心素养的培养在初中数学教学中占据着重要地位,同时也是课堂教学的主要目标。但是就目前来看,部分教师受到传统教学理念的影响,并没有在实际教学中进行落实,部分教师认识到了培养学生核心素养的重要性,但是在具体的培养方法、技巧上缺乏了解,这也使得当前初中数学核心素养培养的落实并不乐观。本文从实际出发,首先探讨了核心素养培养背景下初中数学教学存在的一些问题,再结合笔者的一些思考与认知,围绕如何在初中数学教学
期刊
在大数据时代,数据的大量增长加速了机器学习的发展。近年来,深度学习作为机器学习研究的前沿领域,获得了广泛的应用。深度学习在为科学发展、经济发展和国家发展带来大量增益的同时,其对于数据的大量需求,也给社会带来了隐私泄露的风险。在深度学习的应用过程中,其数据收集、数据共享、模型训练和模型使用各个阶段都有隐私泄露的风险存在。因此在各个阶段进行隐私保护,有效防范深度学习应用过程中的隐私威胁具有很高的研究意
学位
目前,位置信息对于人们的生活愈加重要,比如在与他人共享位置时所需要的位置信息、在出行时所需要的路线导航、在商超购物时所需要的室内导航等诸多方面都要用到室外或者室内的定位技术。同时,在所有的位置信息需求中,室外位置信息的定位精度已经基本满足日常使用,但室内位置信息的定位精度却不尽人意,且定位难度较大。所以,室内定位相关的研究也显得愈发重要。当前,室内位置信息的定位技术主要有超声波、超宽带、RFID、
学位
随着新课程改革全面实施,传统教育理念和教学方式已不适用于现代教育发展趋势,更无法满足学生日益增长的学习需求.尤其数学作为初中教育重要学科,需要教师在核心素养背景下健全完善教学体系,为学生营造自主、探究、合作的学习氛围,改变以往单一沉闷的课堂气氛,增强学生分析问题和解决问题的能力,提高数学教学质量,为长远发展奠定坚实基础.对此,本文试从多方面分析基于核心素养下初中数学教学策略,望给予教师教学以参考.
期刊
近年来,随着工业设备对高质量和低维护成本需求的增加,智能监控的故障诊断逐渐成为一个重要问题。得力于无线传感器网络、并行计算和数据科学的发展,深度学习已经广泛应用于旋转机械的故障诊断。基于这样的背景下,越来越多的研究者希望通过机器学习算法解决此类问题,近些年,部分研究学者针对于滚动轴承的故障诊断提出了一系列较为有效的算法,这些算法极大的提升了故障诊断的效率和精度。然而,在滚动轴承故障诊断的相关算法领
学位