基于序列深度学习的生物医学大数据分析研究

来源 :清华大学 | 被引量 : 1次 | 上传用户:lady408
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学大数据中存在着许多类型的数据,包括序列数据。序列数据中有两类典型数据:一是生物信息领域的DNA序列数据,DNA上存在许多功能片段,基于序列信息预测功能片段对于理解基因的调控机制至关重要;二是医学信息领域的电子病历数据,电子病历记录了病人的疾病信息,对理解病患特征和患者预后至关重要。本文基于卷积神经网络、循环神经网络、词向量模型等深度学习的技术,对这两类序列数据进行了深入的研究。本文的主要研究内容和创新点为:1.针对用生物实验手段预测增强子的时间和金钱成本高的问题,提出了基于卷积神经网络的DeepEnhancer计算模型。该模型采用迁移学习策略进行训练,根据碱基序列信息进行增强子识别,相对传统k-mer方法取得了大约7%的预测性能提升。该模型能够自动学习捕捉到有效的模体特征,具有良好的可解释性,为大规模高精度的增强子识别提供了可靠的计算模型。2.为了在深度学习模型中融合有效的k-mer信息,首次提出了特征融合的卷积长短时记忆神经网络模型。该模型通过无监督学习训练k-mer的嵌入表示,通过监督学习训练卷积长短时记忆神经网络,在染色质开放性的预测问题中取得了分类性能的进一步提升。此方法还解决了变长序列输入的问题,能够捕捉到DNA序列上的长程依赖关系,为深度学习和传统特征的结合给出了新颖的途径。3.针对电子病历中大量的医疗概念难以进行有效表示的问题,提出了医疗概念的多尺度嵌入模型,用于病人的住院费用预测问题。该模型基于医学事件的共出现关系,同时融合了医学编码的层次结构信息。模型学习到的医学概念嵌入向量能够体现医学的内在关系,并且多尺度的嵌入策略能够显著提高罕见医学概念的表示质量。该模型为临床病人的预后提供了基于数据的有效决策手段。4.为了分析医疗保险记录中的不等时间间隔的离散事件序列,对病人再入院风险预测问题进行了深度学习和非深度学习两大类模型的系统性比较研究。在非深度学习模型中,构建了知识驱动和数据驱动两类特征;在深度学习模型中,应用了概念嵌入、时间信息融合和事件注意力机制。验证了医学知识在分析建模中的重要性,也验证了完善的医学数据集对深度学习模型训练的重要性。总而言之,本文在生物医学信息学领域中,运用深度学习先进的技术,挖掘大数据中蕴含的信息,融合专业领域的知识,为实际科学问题提供了解决方案。
其他文献
桅杆结构由于长细比过大的特点,致使其对风荷载过于敏感,容易出现失稳破坏,如果可以准确知道作用于桅杆结构上的推力情况便能够有效减少破坏事故的发生,大连船舶重工集团正着手为VLCC开发一款拥有自主知识产权的风帆系统,依托此项目的子课题,基于桅杆结构进行推力反演系统的研究,实现对桅杆结构作用推力的实时反演。基于线弹性小变形假设,本文提出了一种依据桅杆监测点数据的高精度推力
研究目的:体育赛事属于体育产业中的主导产业,而体育产业作为第三产业的重要部分,具有优化生产结构,促进市场充分发育,缓解就业压力,促进整个经济持续、快速健康发展等产业优势,体育赛事表演业(体育赛事)作为体育产业的主导产业,具有直接提供终端产品和服务满足居民消费需求、满足居民精神文化需求的特性。但目前发展速度较为缓慢,其在资源整合方面的能力还未完全展现。郑汴一体化进程处
中学语文阅读教学培养学生的阅读情趣、阅读习惯和阅读能力,给予学生建构语文知识的自主式学习体验,增进学生对民族文化传统和佳作精华的品味与熏陶、对世界语言文化的了解和鉴赏,是培养学生语文阅读做题分析能力、丰富学生语言文化知识和语言表达能力、增强学生想象力和创造力的重要途径。信息技术以其巨大能量开辟了信息化时代,教育信息化成为我国教育发展的目标,学科教学信息化成为客观必然
期刊
新时期加快发展校园足球是国家教育和足球改革的重要战略目标。青少年校园足球工程复杂,任务繁多,单靠某一个部门或区域内无法解决。鉴于此,职能部门率先提出创新政府主导,行业协会支持,社会力量参与的治理格局。本文采用文献资料分析法、案例分析法、调查法、社会网络分析法等研究方法,梳理我国青少年校园足球发展回顾,分析当前校园足球治理现状和现实困境,借鉴域外校园足球治理经验,继而
科技成果简介:1.较系统地分析了南天山区域成矿地质背景,认为南天山大陆壳形成时间较短,在强烈的构造挤压下形成了一系列逆冲推覆体,东端侵蚀作用较强,花岗岩类侵入体发育,而西部侵蚀作用较弱,岩浆侵入活动不发育。这些决定了萨瓦亚尔顿式金锑矿既类似于穆龙套型金矿又具有其本身的特点,同时也决定了铜、铅锌矿床的成矿作用和时空分布,以及锡矿与海西晚期碱性花岗岩体的密切时空关系;…
严峻的海洋生物污损问题显著制约海洋工程装备的服役安全性、可靠性及耐久性,而亟待开发绿色、长效、高性能防污方法。本研究提出一种微米尺度异质双金属叠层结构Cu-Ti复合涂层设计,并采用等离子喷涂(APS,Atmosphericplasmaspray)双金属混合粉末的方法进行涂层的制备,以期通过发展基于微米尺度异质Cu/Ti叠层结构的Cu离子可控缓释及自抛光新机制,实现基
论文题目:滁州市延寿村街道景观设计研究作者姓名:刘钱学科专业:艺术设计研究方向:环境设计系别年级:设计学院2018级指导教师:袁惠敏新疆艺术学院研究生处2021年6月5日新疆艺术学院学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人
学位
分类号:G124单位代码:10422密级:公开学号??201811873_
学位
i立代码|10445"i2016501004分类号G40-058硕士专业学位论文初中学困生转化中的亲师合作探宄ResearchofParentTeacherCooperationo
学位
目的观察慢性肾脏病(CKD)患者血清镁(Mg)、鸢尾素(irisin)水平变化,并分析其与颈动脉钙化的相关性。方法选取2019.10-2020.07我院肾内科收治的CKD患者133例(CKD组),性别年龄匹配的健康体检者96例(对照组),抽取两组空腹静脉血检测血清Mg、irisin水平。采用颈动脉彩色多普勒超声检测CKD患者颈动脉钙化情况,根据超声检查结果将CKD组