【摘 要】
:
随着现代测序技术的飞速发展,生物测序的速度和难度在不断降低,生物信息学俨然进入了组学和大数据时代。基因作为决定生物性状的起点和生物测序的直接产物,一直以来都是国际国内的研究热点,但是目前基于基因组学数据的研究还存在以下挑战。首先,依据中心法则,那些能够被翻译编码为蛋白质的基因区域仅占到全部基因序列的3%不到,而余下不能被直接翻译的基因序列中同样也蕴含着能够影响生物性状的丰富的功能区域。目前国际国内
论文部分内容阅读
随着现代测序技术的飞速发展,生物测序的速度和难度在不断降低,生物信息学俨然进入了组学和大数据时代。基因作为决定生物性状的起点和生物测序的直接产物,一直以来都是国际国内的研究热点,但是目前基于基因组学数据的研究还存在以下挑战。首先,依据中心法则,那些能够被翻译编码为蛋白质的基因区域仅占到全部基因序列的3%不到,而余下不能被直接翻译的基因序列中同样也蕴含着能够影响生物性状的丰富的功能区域。目前国际国内对非编码区基因的研究还不够深入,缺乏一个全面有效的表观特征空间阐述非编码基因改变产生的影响;其次,传统手工方法处理短基因读片虽然精确有效,但在生物大数据时代已无法成功处理数以亿计的高通量测序数据,而传统的深度学习模型在特定空间系中可以获得良好的效果,但一旦对特征空间进行扩充其表现也会随之下降。所以,如何设计实现一种能够适应大规模表观特征空间的算法模型对生物研究与疾病关联分析具有重要的科学借鉴含义和临床分析价值。针对上述困难,本文构建了大规模的表观特征空间,提出了一种基于深度学习的变异位点识别方法,最后基于构建的特征空间利用模型将基因序列映射至表观空间,从而达到关联功能元件与疾病的目的,具体研究工作如下:(1)大规模表观特征空间构建:基于Enocode(Encyclopedia of DNA Elements)、mod ENCODE和Road Map等项目提供的数据,将功能DNA注释数据依次通过格式归一、文件合并、区间去重、片段排序、序列映射等操作构建为大规模表观特征空间。(2)多维特征提取的功能元件预测模型:在卷积神经网络模型下,提出分频特征提取机制替换原有的卷积滤波器进行特征提取操作,并在信息更新步骤融入muti-head-attention机制,设计了一种新的适应序列输入的深度学习模型Deep MSA;利用NCBI(National Center for Biotechnology Information)提供的人类参考基因hg19对模型进行训练和验证。结果表明,Deep MSA模型的AUROC值较其他模型提高了0.03~0.05,0.02~0.04.(3)表观特征预测系统的设计与实现:为了给相关研究者提供支持以及应用于临床研究,我们完成了表观特征预测系统的设计与实现。具体实现为:基于CSS和HTML开发了用户友好的图形交互接口,基于My SQL的持久化能力开发了序列-特征空间映射仓库,基于内存型数据库开发了数据缓冲中间件,从而有效地提高系统的响应和并发应对能力,使用分布式系统与哨兵机制提高系统的可用性,使用主从机制确保系统的容灾性、永久性和可恢复性,使用B+树索引提高数据库的搜索效率,基于Vue编写可视化中台系统方便使用者对系统进行监控与管理。文中提出的基于深度学习的变异位点识别方法兼顾了高维特征空间下基因读片预测的准确性和完备性,对于序列处理的研究均有一定参考意义,为其他组学数据研究提供了新的思路。
其他文献
在生物数学中,结合了捕食与竞争关系的IGP(Intraguild Predation)模型是许多学者的研究重点.本文将以此模型为基础,研究带有恐惧效应和离散时滞的IGP模型的动力学行为.本学位论文共由三章组成.第一章,对IGP模型的研究背景、IGP模型和恐惧效应的研究现状进行了简单的介绍,给出了一些基本定理,并概括了本文的主要研究工作.第二章,建立了一类具有恐惧效应和离散时滞的IGP模型.首先证明
制造业已然是中国经济稳步发展的重要支柱.对制造业上市企业的财务状况进行监控,特别是对财务风险及时预警,这对投资者、企业自身以及经济社会具有重要意义.本文对制造业上市公司的财务报表中财务指标和年报中的管理层讨论与分析(MD&A)两个信息披露进行分析并建立财务困境预测模型,对未来中可能遇到的财务风险及时预警.本文的主要工作如下:1.选取财务报表中反映公司偿债能力、盈利能力、经营能力和发展能力的众多指标
抗生素具有可以挑战微生物种群的特性,因此在临床医疗,水产及畜牧养殖业被广泛应用。当抗生素被排放到自然界后,其被视为影响环境中微生物群的结构和活性,并使得具有多重耐药性的“超级细菌”逐步产生的重要污染物。所以,寻找一种绿色高效的去除环境中抗生素的方法和技术就显得尤为重要。半导体光催化作为一种能在温和条件下,拥有着卓越的太阳能捕获和转换能力的技术,在有机污染物降解、全水分解、析氢析氧、有机合成等诸多领
随着社会的发展,以阀门球芯为代表的球形零件,在各行各业中拥有着广泛的应用。球阀是阀门中的典型,有着结构简单、使用方便的优点,球芯则是球阀中的重要零件。由于球阀密封性等要求高,因此对其球芯的表面质量及形状精度有极高要求,这给后续加工带来了困难。基于上述原因,改善球芯加工过程及后续检测手段已成为该行业的迫切需求。本文从球面磨削基本原理出发结合坐标变换等数学工具,按照理论分析和实验验证相结合的思路,对球
随着社会的进步,环境问题逐渐显露,Vuilleumier热泵系统作为燃煤供暖的替代产品受到了越来越广泛的关注。本文针对Hofbauer提出的HofbauerVuilleumier热泵(HVCHP)进行了一系列研究,具体研究内容如下:(1)为了分析Vuilleumier热泵系统效率较低的原因,考虑通过监测PV功流和热流量来分析整机中发动机与制冷机各自的效率,但是在目前的三腔模型和四腔模型中,通过上述
临床上由外伤、先天性疾病、衰老等引起的组织缺损十分常见,但传统治疗方法效果不佳,缺损组织的修复是当今临床医疗的一大难题。组织工程技术是最具发展前景的治疗措施之一,工程化组织体外培养需要能够精确模拟生化环境和力学环境的生物反应器,但目前的生物反应器难以满足需求,仍处于实验室应用和临床研究阶段。只有充分考虑力学环境和生化环境的协同作用,才能达到更好的培养效果,因此亟需开发能够精准模拟特定组织力学及生化
随着移动信息技术的发展,基于位置的社交网络(Location Based Social Network,LBSN)逐渐普及,衍生了大量用户签到行为数据。丰富的签到数据为了解用户行为和实现个性化旅行路线推荐提供了机会。为了节省人们盲目找寻旅行资讯的时间,个性化的旅行路线推荐应运而生。个性化的POI(Point Of Interest,兴趣点)序列推荐研究作为个性化的行程规划和旅行路线推荐的关键任务,
本论文以部编本、人教版、北师大版、苏教版、沪教版五种小学语文教科书中的现当代游记课文为研究对象,探讨小学语文教科书中现当代游记课文中的选编与教学,以期为现当代游记的教学提供借鉴及启示。本论文包括五个部分:绪论部分主要介绍了选题背景、研究现状、研究方法及概念界定。第一章主要从现当代游记选编入小学语文教科书的理论依据和选编入小学语文教科书中现当代游记的文体特征说起,揭示了现当代游记与小学语文教科书的关
慢性乙型肝炎是由乙型肝炎病毒(Hepatitis B virus,HBV)持续感染而引起的一种重大传染疾病,并最终会导致肝硬化以及肝癌等重大恶性疾病。然而,由于乙肝病毒对宿主的特异性及其生活周期的精密调控,患者体内的HBV基因组ccc DNA不能彻底清除,因此至今对于慢性乙型肝炎的治疗,还不能达到治愈的效果。目前,针对乙型肝炎病毒的药物,如α-干扰素(IFN-α),其治疗效果不佳且易产生耐药。因此
自2013年以来,在我国大部分地区的雾霾情况日渐加重,已经对人类生活和动植物的生存环境带来了极为恶劣的影响。雾霾中的PM2.5对人身体危害最大。因此,旋风分离器作为一种结构简单的除尘设备,得到了人们广泛的关注与应用。本文提出一种电动除霾车用四进气口旋风分离器设备,电动车给引风机提供能量,使空气通过进气口进入旋风分离器内部,在离心力和重力的作用下,空气中的颗粒物被旋风分离器底部的集尘箱捕捉,实现颗粒