基于机器学习的长链非编码RNA识别研究

来源 :南京邮电大学 | 被引量 : 1次 | 上传用户:zcom0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的快速发展,海量的基因测序数据被相关基因数据库收录,如何对这些海量的基因序列数据进行挖掘和分析是当前生物信息领域面临的重要问题。长链非编码RNA(Lnc RNA)作为一类重要的RNA分子,在人类各项生命活动中起着重要作用,如何准确识别Lnc RNA是当前生物信息学研究的热门问题。癌症是一类严重威胁当代人类健康的疾病,而Lnc RNA广泛参与癌症的发生和发展,识别癌症相关Lnc RNA,对于研究基因与癌症的关联关系以及诊断治疗癌症的有效生物标志物和靶标具有重要意义。本文基于人工智能领域先进的机器学习和深度学习算法,针对一般Lnc RNA识别以及癌症相关Lnc RNA识别展开相关研究。本文的研究工作和创新内容包括以下三个部分:(1)提出了AdaBoost-DT集成分类模型识别Lnc RNA。该方法基于AdaBoost集成学习结合决策树算法,通过整合转录本序列长度、GC含量及k-mer子序列频率这三类特征,构建的AdaBoost-DT集成分类模型识别Lnc RNA,在测试集上达到87.28%的识别准确率,高于其他采用传统机器学习算法的识别方法,具有较好的识别准确率。(2)基于卷积神经网络分类模型提出了一种有效的Lnc RNA识别方法——Lnc-CNN。Lnc-CNN方法通过对RNA序列数据集进行one-hot编码输入卷积神经网络,训练得到CNN分类模型,对RNA序列进行识别。Lnc-CNN方法不需要人工提取特征,降低了实验过程复杂度,提高了识别结果的准确率,在来源于GENCODE基因数据库的测试集上达到92.27%的识别准确率,识别准确率相比采用传统机器学习算法的AdaBoost集成学习识别方法提高7.87%,该方法对序列长度不是过短的RNA序列均有非常好的识别效果。(3)基于AdaBoost-DT集成分类模型提出了一种名为“Can Lnc-ADT”的癌症相关Lnc RNA识别方法。该方法整合表达特征、表观遗传特征、基因组特征和网络特征四类转录本序列特征,基于AdaBoost-DT集成分类模型识别癌症相关Lnc RNA,在测试数据集上达到94.32%的识别准确率,相比CRlnc RC、CRlnc RC2等最新的癌症相关Lnc RNA识别方法,识别准确率分别提高3.75%和2.71%。本文提出的AdaBoost-DT集成分类模型和Lnc-CNN方法均能有效识别Lnc RNA,为进一步研究Lnc RNA功能奠定基础。提出的Can Lnc-ADT方法可以准确识别癌症相关Lnc RNA,对进一步研究Lnc RNA在癌症发生和发展中的作用也具有重要意义。
其他文献
2013-2015年,本试验在山东农业大学试验农场和作物生物学国家重点实验室进行。本研究采用干旱棚池栽试验,以郑单958(ZD958)为试验材料,设0 kg·hm-2(K0)和180 kg·hm-2(K12)
国有企业走出去是中国改革开放三十年以来的重要战略之一,而对外进出口贸易则是全球化背景下中国国有企业走出去的重要战略举措。尽管国家之间通过签订贸易对等条约等途径积
抗菌肽是动物抵抗外来细菌入侵的第一道屏障,在动物先天免疫机制上具有重要作用。在诸多种类的抗菌肽中,Cathelicidin是一个最大的抗菌肽家族,在猪上目前发现有PR-39、PG1-5
谐波污染常常导致代价昂贵的事故发生.因谐波含量过大引起的电压梯度过大,对并联电容器有严重的危害。因此,对电力系统中作为无功补偿的电容器组.研究在受多谐波源作用时其参数
The aim of this study is to propose an estimation approach to non-life insurance claim counts related to the insurance claim counting process, including the non
研究了CMC、改性大豆蛋白等生物质材料与填料转性增强剂配合使用提高铜版原纸灰分的合理工艺条件,以及CMC、改性大豆蛋白对成纸性能的影响。结果表明,CMC、改性大豆蛋白应用
以“立德立志立行立业”为校训的无锡市新安实验小学,位于太湖之滨、古运河畔,始建于1913年。经过近百年的薪火传承,而今已成为校园环境优美、办学特色鲜明的现代化学校。迈入新
The purpose of the present study was to assess the reproducibility of voxel placement for GABA-edited MRS. GABA-edited MRS data were acquired in 13 healthy volu
目的观察酚妥拉明、多巴酚丁胺与复方丹参注射液联合治疗慢性肺心病伴心力衰竭的临床效果。方法选择收治的慢性肺心病伴心力衰竭54例,在传统综合对症治疗的基础上加用酚妥拉明
查哈阳农场在“三化”栽培技术基础上,利用“三膜钵育摆栽”技术,结合东北农业大学的“三超”项目内容形成“双三”栽培,1999年示范水稻18hm^2,平均产量12105kg/mh^2,最高产量达到