基于序列信息和深度学习的核小体定位

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:dfhg54h446jn6gfn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
核小体作为真核生物中染色质的基本结构单位,不仅压缩了染色质形态结构,在基因组表达、DNA复制和修复等生命阶段也起着关键作用。因此,研究核小体在全基因组DNA序列上的精准定位具有深远的生物学意义。随着生物技术和计算机技术的不断进步,生物数据正呈现出爆炸式地增长。仅依靠生化实验方法研究核小体定位,成本高且耗时长,开发出高效、精确的核小体定位算法成为更现实的研究需求。本文分别基于DNA序列的图像表示和词向量表示,利用机器学习和深度学习算法提出了新的核小体定位模型,并在相关研究工作数据集上验证了本文方法的有效性。首先,采用DNA序列的频数混沌游戏表示(FCGR)和图形化作为序列特征,再分别结合支持向量机、极限学习机和卷积神经网络,提出了基于DNA序列图像表示的核小体定位模型。在人类、线虫、果蝇和酵母数据集上,分别计算了10折交叉验证下模型的分类预测精度。结果表明,FCGR特征应用于核小体定位是可行的,并且一条序列采用多个不同维度的FCGR特征组合表示效果更好,其中分类准确率最高分别达到了87.08%,87.54%,81.13%,100%。其次,基于k-mer和word2vec模型训练出DNA序列的词向量,构建了三个不同网络结构的深度学习模型。经过10折交叉验证下的实验结果显示,融合了卷积神经网络、双向GRU和双向长短期记忆神经网络的NP_CBiR模型的预测效果更好,它综合了不同网络结构在特征提取上的优势,能够有效提取DNA序列的局部特征和碱基顺序特征。对比其他研究方法,NP_CBiR在人类、线虫、果蝇和酵母4个数据集的预测准确率最高分别达到了86.18%,89.39%,85.55%,100%;并有效提升了人类、果蝇、酵母物种中8种不同类别序列数据集上的AUC值。这一结果证明了DNA序列词向量能够有效的表示序列特征。
其他文献
有机氟化合物在社会生活和生产中广泛存在有着特殊的应用价值。氟原子是很特别的元素,在化合物中引入氟原子或含氟基团都能明显地改变这些物质的物理化学性质。因此寻找优秀的方法向有机化合物中引入含氟原子或者基团是很有研究价值和意义的。高价碘试剂具有低毒、环境友好、廉价易得等优点,在许多反应中当作氧化剂或转移化试剂。由于含氟源的高价碘试剂被不断发现,让我们可以合成更多不同有机氟化物。本文研究了九氟联苯基高价碘
空间站卫生间是载人航天环境控制与生命保障系统中的一个重要组成部分,是满足航天乘员生理需要必需的物质和安全保障条件。在以往的航天器废物收集器设计实践中,主要是依据工程目标任务需求,依靠设计师的调研和设计经验来进行的。由于一些评价指标的不确定因素,对空间站卫生间的设计进行综合评价变得极其困难。本文通过对空间站卫生间废物收集器的人机关系进行研究,分析空间站卫生间评价因素,并借鉴人机工程学的理念和结合当前
有声书作为一种可以解放双眼、实现用耳朵听书的阅读产品,在现代信息技术的加持下,更展现出了强劲发展动力,给读者带来了一种全新的阅读体验,充分契合了互联网时代民众的阅读需求。笔者认为,我国传统文化可以借助这一网络技术发展的契机,不再只是将时代久远且略显刻板晦涩的传统文化内容以文字形式刻板枯燥呈现在纸张上,难以激发读者的持续阅读欲望,现阶段有声书让传统文化摇身一变转换为声调具有艺术性起承转合的音频形式,
光热高分子因其在软执行器、自愈合材料、仿生研究等领域的重大应用价值,因此,构筑新型光热材料具有重要的意义。在本论文中,我们利用双氰基二苯乙烯(DCS)构筑了新型光热高分子,并深入研究该高分子的化学结构与其光物理特性的内在联系,并基于其优异的光热效应,探究了其在响应智能窗领域的应用。具体内容如下:1.设计并合成了以双氰基二苯乙烯(DCS)为刚性核心的单体M0,并通过简单的自由基聚合得到了对应的侧链型
本文提出一种快速高效的有限差分/有限元方法去求解二维区域上时间多项时空分数阶Bloch-Torrey方程.目前,已有的工作主要研究解耦的分数阶Bloch-Torrey方程的数值方法.与此不同,本文从耦合的问题出发建立快速、低存储的数值格式,并讨论相关的稳定性和误差估计.具体而言:首先,为了快速估计Caputo导数,减少数值格式的计算储存,本文利用一些指数函数的和来逼近核函数-,∈(0,1);其次,
宫颈癌是一种常见的妇科恶性肿瘤。宫颈癌筛查与诊断是预防与治疗该病症的有效手段之一,其中宫颈细胞病理图片分类是影响该病症辅助筛查与诊断准确度和效率的重要因素。本文基于深度学习对宫颈单细胞和多细胞图片分类问题开展研究。针对宫颈单细胞图片分类问题,在公开数据集SIPaKMeD(简记为数据集1)和源自湘潭市各医院提供的宫颈病理细胞原始图片与诊断信息通过裁剪、筛选和标注等操作得到的宫颈单细胞图片数据集(简记
齿轮作为机械传动系统中进行运动传递和承载的重要零部件,现已被广泛应用于各类民用和军用设备上。通常,绝大部分机械传动系统会工作在重载、高温和冲击等恶劣的服役工况下,其关键零部件齿轮在啮合时容易发生磨损失效,从而影响机械传动系统的实际工作性能,严重时使得整机存在较大的故障隐患。若能对失效齿轮齿面进行修复及改性,以提升失效齿轮的可持续使用寿命,对于我国再制造工程产业的发展具有重要意义。激光熔覆技术因选材
随着我国互联网信息化水平的不断提高,网民利用网络享受着便利的公共服务,同时也可以随时随地参与网络话题的讨论,由此所形成的网络舆情在一定程度上监督并约束着社会治理,这就要求政府及时公开回应公众的诉求和关切,并接受外界对政府回应效果的评价,开展政府回应效果评价的目的是为了检视回应中的问题和不足,促进回应能力和质量的提升,从而赢得公众的信任和赞许。政府在面对网络舆情时,需要对于社会各界的期望与质疑所给出
光电化学(PEC)分解水技术可以将太阳能转化为清洁,可再生的氢能源,具有广阔的应用前景。然而,大规模的PEC水分解技术由于太阳能转化氢效率不足而受到阻碍,这就需要开发高性能的光电极材料。决定光电极水分解性能的关键过程是:光电极的光吸收,电子和空穴对的分离和传输效率以及水氧化/还原的表面反应。针对这三个关键过程,近年来科学家们做了巨大努力,研究了各种材料设计和表面修饰策略,以提高光电极材料的性能。本