基于机器学习的RNA假尿苷和piRNA识别算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sonicff8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA假尿苷是基于假尿苷修饰形成的RNA尿苷异构体,是假尿苷修饰的标志物。假尿苷修饰是迄今为止发现丰度最高的RNA修饰,它可以增强RNA的稳定性与调控基因表达。RNA假尿苷的识别对于研究假尿苷修饰发生的位点和规律有决定性作用。类似地,piRNA是一种非编码RNA,可以沉默基因表达和控制生殖细胞的发育,还与多种癌症有关系。识别假尿苷和piRNA对于深入认识RNA的修饰原理和调控机制以及研发RNA药物具有重要意义。RNA假尿苷和piRNA都与RNA序列结构有密切关系,通过序列信息来预测RNA假尿苷和piRNA是本文的主要目标。如何设计针对RNA序列信息的分类识别算法是解决这两个问题的关键。本文针对RNA假尿苷和piRNA的识别,主要成果概括如下:(1)针对RNA假尿苷,本文提出了增量式学习算法:PA-PseU。此算法提取核苷酸组分特征K-mer和序列顺序相关因子特征SOCF,通过卡方检验和逻辑回归组成的两步法特征选择,用主动被动分类器进行分类。不同特征选择方法、不同分类方法的对比实验结果证明了PA-PseU的有效性。通过对数据集进行序列分析,本文得到RNA假尿苷序列的分布规律。PA-PseU交叉验证和独立测试的结果均已超过其他RNA假尿苷识别算法。在人类、酵母菌、小鼠三种物种上,PA-PseU十折交叉验证的平均准确率达到了87.33%,独立测试的平均准确率达到了81.00%。实验结果证明PAPseU对于RNA假尿苷有良好的识别效果。PA-PseU适用于大数据集、时间复杂度低、可以增量学习,解决了之前RNA假尿苷识别相关算法不适用于大数据集、时间复杂度高、不能增量学习的问题。(2)针对piRNA,本文提出了集成式深度学习算法TransConvNet。此算法用集成学习投票法将简化的Transformer编码器和卷积神经网络CNN结构集成起来,以N-gram构成的词向量编码和四种核苷酸构成的One-Hot编码作为输入,经过自动的特征提取和处理,最终分别得到两层的piRNA的识别结果。对训练得到的频率最高的前100个词向量进行热力图分析,TransConvNet得到了piRNA序列的重要特征词。TransConvNet交叉验证和独立测试的结果均比肩甚至超过其他算法。TransConvNet第一层和第二层五折交叉验证准确率分别达到了90.87%和87.39%,第一层和第二层独立测试准确率分别达到了83.14%和83.74%。实验结果证明TransConvNet对于piRNA有良好的识别效果。TransConvNet特征提取处理相关流程自动化,解决了之前piRNA识别相关算法需要人为提取和处理特征造成的低效问题。
其他文献
近年来,冲突已是人类社会颇受关注的课题。各个领域的学者都致力于对冲突分析模型的研究。最为经典的是Pawlak所提出的冲突分析模型,用完备的三值信息表进行研究。随后,学者们对其进行更深入的研究,建立了许多冲突分析的模型。但是在现有的冲突分析模型当中,并未考虑到信息表中信息的缺失情况。因此,本文拟在不完备信息系统中研究冲突分析,具体内容如下:1.提出不完备三值信息系统的冲突分析模型。首先,对于信息表中
学位
压电陶瓷是一种重要的换能材料,在电子信息、机电换能、通信等领域有着广泛的应用,但目前应用最广泛的压电陶瓷中含有铅元素,会给人类健康和生态环境带来巨大危害,因而需要研发高性能无铅压电陶瓷来取代铅基压电陶瓷的应用。Bi0.5Na0.5Ti O3(BNT)基无铅压电陶瓷具有优异的铁电性能,但存在矫顽场大、电导率高等缺点,使其难以充分极化,表现出低的压电性能;虽然通过在BNT中固溶Ba Ti O3(BT)
学位
有机压电材料P(VDF-TrFE)因其具有优异的压电性是而被广泛研究。由于该材料显示出绝缘体特性,因此相关研究倾向于将P(VDF-TrFE)和有机半导体结合起来制备同时具有压电性和半导体性质的功能材料。这些功能材料在纳米机器人、人机交互、能量收集等领域中具有广泛的应用前景。本文以P(VDF-TrFE)和有机半导体PFO相分离薄膜为主要研究对象,并制备了以P(VDF-TrFE)/PFO相分离薄膜为基
学位
氮化镓(GaN)基高电子迁移率晶体管(HEMT)在高频及大功率方面展现出了巨大的优势,在我国国防及航天航空领域应用中具有广阔的前景。但在面临复杂的辐射环境时,器件的可靠性受到了巨大挑战。器件在工作时受到的辐射源大部分是质子,而国内外的研究主要是基于高能质子,对低能质子的研究较少。因此,本文基于低能质子对AlGaN/GaN HEMT器件的辐射效应研究,重点对辐射缺陷进行了系统的表征。本文主要研究工作
学位
高镍层状Li Ni0.8Co0.1Mn0.1O2(NCM811)正极材料具有可逆比容量大、成本低、操作电压范围广等优点。但是,NCM811也存在锂镍混排、不可逆相变、晶格氧逸失、微裂纹和过渡金属溶解等问题,导致其电化学性能快速恶化,限制了其广泛应用。研究发现,表面包覆可以稳定材料表面的物理化学性质、改善Li+迁移、降低界面阻抗和抑制界面副反应,被认为是最简单有效的改性方法之一。本论文采用不同的制备
学位
压电纳米发电机(PENGs)能将机械能转换成电能,从环境和人体活动中采集机械能可以满足基于低功耗电子设备的能源需求。然而,当前大多数的PENGs是基于不可降解和非生物相容的材料,不满足下一代微电子设备可生物降解、可生物兼容、环保等的发展需求。本文利用苯丙氨酸二肽(FF)生长垂直、单向极化的大规模阵列,并制备完全可降解的压电纳米发电机,然后对制备的器件进行了开路电压,短路电流,功率和稳定性测试,最后
学位
与传统电池相比,储能介质陶瓷电容器具有功率密度大、充放电速度快等优点,目前储能介质陶瓷材料已成为研究热点,但迄今为止,大多数研究中具有高储能特性的大多是含铅型陶瓷材料,铅元素不仅会对环境造成巨大污染,还会对人类健康产生损害。钛酸锶钡基无铅储能陶瓷材料具有灵活的介电可调性、介电常数高及介电损耗低等优点,在储能介质陶瓷中受到广泛关注,但其烧结温度高,生产制备过程中能耗大,不利于节能减排;同时BST基陶
学位
面对日益复杂的战场环境,半主动激光制导武器作为武器系统中重要的一环极大地提高了战场的打击效率,其中高精度实时测量的激光导引头系统是实现精准探测和跟踪的关键。传统的光学导引头接收装置只能对角度或者位置进行单一测量,本文利用改进式的自准直法对其进行了优化,实现了对角度和位置的同时测量,搭建了接收装置实验系统进行测试,其测量精度达到了微米和微弧度量级;在选择PSD作为探测器的导引头接收装置实验系统中,针
学位
氧化锆是目前最有发展前景的义齿修复体材料,然而氧化锆陶瓷呈白色,与自然牙的颜色存在差距。在氧化锆义齿的临床应用中,广泛使用的比色板人工测色技术,其测量结果易受到环境光照、人眼疲劳等干扰因素的影响,且比色板较低的测量精度,使得人工测色很难为患者提供个性化的义齿颜色方案。本文采用粉体掺杂的方法改善氧化锆陶瓷义齿的美学性能,使用数字比色仪获取高精度的颜色数据,基于机器学习算法对氧化锆义齿的组分-色度关系
学位
随着数字图像处理技术以及计算机视觉技术的不断发展,人们对视频图像的质量要求越来越严格,想要获得清晰度更高和视野更广的全景视频图像。而单一成像设备获取的视频图像往往视野较窄,虽然广角镜头或者鱼眼镜头能够获得广视野的视频图像,但是会有畸变现象的发生,分辨率也不高,而且此类镜头的价格往往比较高。因此,研究人员通常采用数字图像处理技术来对视频图像进行拼接处理,即视频拼接技术。该技术通过多路视野范围较小的视
学位