基因表达调控机制的智能计算模型与算法研究

来源 :何文颖 | 被引量 : 0次 | 上传用户:luo_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着众多全基因组测序项目的有序开展和实施,对于基因组学的一系列相关研究逐渐由基因组测序向基因组合成方向发展。以DNA为基础的分子组装技术、基因组编辑技术、定向进化技术和DNA存储技术等前沿合成生物学技术的不断涌现,将极大地促进科研人员对于人工精确调控合成生物学产物的研究。基因表达的精确调控研究对合成生物学至关重要,但仍面临着基因表达调控机制的解析的关键问题,特别是调控相关元件的标记以及基因和功能对应关系等问题。因此,如何对各种各样的调控相关的元件进行识别,如何对未知功能的序列和位点进行功能探索和注释,是后基因组时代的研究重点和难点。随着高通量测序技术的发展,海量多样的组学数据不断产生,这些数据是挖掘生物系统的规律和探究生命奥秘的本质所需的丰富信息载体,但其潜力的挖掘需要借助更高层次的分析手段。机器学习是一种数据分析技术的集合,是智能计算的研究基础,其利用数据表征信息学习并构建预测模型,并已成为现代生物生命科学研究中不可或缺的重要支撑手段。借助大型数据集学习所得的模型,机器学习可以对可能的结果做出预测,从而实现对不断增长的复杂性数据的高层次分析。因此,本文从微观层面上进行了基因表达调控相关功能元件及修饰位点的机器学习预测研究,同时又从系统层面进行了基因调控网络的重构算法研究。本文的具体研究内容主要包括:(1)基于多元特征的非编码DNA序列的识别研究。非编码DNA(Non-coding DNA,nc DNA)序列是生物基因组的重要组成部分。本文提出了能准确且自动化的识别非编码DNA序列的计算模型。该方法针对酿酒酵母(Saccharomyces cerevisiae,S.cerevisiae)nc DNA的基准数据集,从单核苷酸、二聚体、三聚体、四聚体、五聚体和六聚体中选择最优特征提取策略,构建了一个基于支持向量机的nc DNA序列预测器Sc-nc DNAPred。该方法不仅可以避免昂贵的开销,同时其检测非编码DNA序列的精度也高达0.98。(2)基于位置特异性差异的σ70启动子识别研究。在原核生物中,启动子调节大部分基因的转录,启动子识别是基因结构识别的重要组成部分。本文结合单链特征的三核苷酸位置特异性倾向(position-specific trinucleotide propensity based on a single-stranded characteristic,PSTNPSS)和三核苷酸电子-离子相互作用赝势(electron-ion interaction potential values for trinucleotides,Pse EIIP),开发了用于预测原核生物启动子的识别方法70Pro Pred。该方法在准确性和稳定性方面均显著优于现有的原核生物σ70启动子预测方法,同时其也可以推广应用于其他类型的启动子的预测。(3)基于位置特异性差异的DNA胞嘧啶甲基化位点识别研究。N4-甲基胞嘧啶(N4-methylcytosine,4m C)在DNA复制和基因表达中发挥着关键作用,对4m C位点的精确识别是研究其功能和作用机制的基础。本文开发了一种新的工具4m CPred,该工具可以预测秀丽隐杆线虫(Caenorhabditis elegans,C.elegans)、黑腹果蝇(Drosophila melanogaster,D.melanogaster)、拟南芥(Arabidopsis thaliana,A.thaliana)、大肠杆菌(Escherichia coli,E.coli)、Geoalkalibacter subterraneus(G.subterraneus)和Geobacter pickeringii(G.pickeringii)6个物种的4m C位点。独立测试和物种交叉验证的结果表明,4m CPred可以有效预测4m C位点。另外,本文还详细分析了不同特征对于预测结果的重要性。(4)基于多源表达数据的基因调控网络重构算法研究。细胞的生长和分化、疾病的发生和发展都受基因调控网络(Gene Regulatory Networks,GRNs)的控制。在诸多针对GRN的研究中,如何利用基因表达数据来确定基因与基因之间的关系尤为重要。本文提出了一种多源多模型融合方法MMFGRN,用于重构GRN并发现基因之间的潜在调控关系。大量的实验结果表明MMFGRN对不同规模的网络都具有良好的鲁棒性。同时,本文设计的整合策略(包括联合模型构建和加权融合方法),也为无先验知识的情况下重建生物网络模型提供了一种新的思路。
其他文献
中超俱乐部比赛海报,是参与中超联赛的足球俱乐部在比赛日之前在媒介平台上所发布的预告赛事信息的商业海报。中超联赛自身的影响力在2011年之后显著增强,社会关注度相应也随之提高,从2012赛季开始,中超各个俱乐部相继发布比赛海报,兼具宣传性与审美性的海报一经问世,便迅速赢得了体育媒体人与球迷的口碑,随之而来的是中超俱乐部比赛海报的井喷式发展。随着海报内容的日益丰富以及俱乐部运营的规范化,目前中超联赛中
随着城市化的发展,交通运输的压力也在增大,为了缓解交通压力,我国大力发展城市轨道交通事业。城市轨道交通作为城市的公共交通运输工具,是典型的资产密集型企业,以城市的经济增长和居民的便利出行为前提条件,地铁的正常运行直接影响了城市化的进程和质量。为了保障安全运行,设备维护是企业重要的组成部分。如何实现高效的设备可靠性,减少故障突发率,降低设备维修成本,是轨道交通企业面临的重要课题。基于这样的形势,有些
研究目的:探究A3下肢康复训练机器人联合Tecnobody PK254训练对脑卒中偏瘫患者平衡及步行能力的作用,为更好地促进偏瘫患者的平衡及步行功能发展提供新的康复实践经验。研究方法:选取2018年12月至2019年11月在无锡市惠山区康复医院治疗的老年脑卒中偏瘫患者52例为研究对象,按照入院顺序采用动态随机法分为A、B、C、D四组,每组13例。4组患者采用如下康复训练方案:A组(常规训练组):常
数字音乐版权时代的到来,不仅影响了公众获取音乐产品的方式,也影响了数字音乐经营者们的商业决策。为了获取更多的音乐版权,各种授权模式开始被应用到数字音乐产业中,其中就包括数字音乐独家授权模式。数字音乐独家授权模式的广泛应用可能引发数字音乐版权的恶性竞价,未能签订独家授权协议的经营者可能由于缺乏音乐版权难以实施充分竞争,消费者的选择权也可能因此被剥夺。基于上述事实,数字音乐独家授权模式的应用引发了广泛
高质量发展必然需要充满生机与活力的市场主体,而商事登记法律制度与市场主体的活力息息相关。随着改革的逐步深化,尤其是在世行营商环境评价的推动下,为了增强中国市场对国际资本的吸引力,近年来开展了注册资本制度、“先照后证”、“多证合一”等系列改革与探索,推动了市场监管从重审批轻监管,走向事前、事中与事后监管有机融合。问题是,长期以来“因人立法”“因事立法”所形成的碎片式商事登记立法,严重滞后营商环境优化
拳击项目作为一项强对抗性的运动,集力量、速度与耐力等运动素质于一身。女子拳击作为我国备战奥运会的重点夺金项目,历来备受重视。在近些年在奥运会、拳击世锦赛、亚运会和拳击亚锦赛等比赛中取得了优异成绩。女子拳击成为了 2012年伦敦奥运会的正式项目后,各国对女子拳击发展的重视得到了广泛的提高,我国女子拳击在2012伦敦奥运会和2016年里约奥运会获得2银3铜,共5枚奖牌,虽然没有金牌,但这样的成绩也充分
学位
学位
传统教学模式下,学生经常会出现学习积极性不高、参与程度不足等现象,而翻转课堂将学习的主动权交到了学生手上,颠倒了“教”与“学”的过程,从而产生了传统课堂所没有的教学效果。与学习者有关的一切变量和因素都是学情,它影响教学的发生、教学的开展以及教学效果。学情视角下的翻转课堂教学强调教师在课前、课中和课后都要全面考虑学生的学情,“以学定教”,将学情分析贯穿翻转课堂教学的全过程。本文深入贯彻以学生为中心的
学位