基于生物序列与结构大数据的分析方法及应用研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:tianshiye45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展和进步,生物序列及结构数据在以指数增长的速度增加,如何高效地从海量数据中提取关键信息,预测新数据所属类别,以及根据序列与结构数据表现的相似性从而研究物种间的系统发育关系成为近年来生物信息学中重要的研究问题。生物信息学中传统的序列比对以及结构比对方法通常复杂度较高、运算时间久,难以处理数据规模大或是结构较复杂数据,这就启发我们提出序列分析以及结构分析的新方法。在对序列分析的研究中,为了进一步研究序列中核苷酸或氨基酸的分布情况,本文提出核苷酸(氨基酸)之间的相关性概念,并将此特征其加入到原始的自然向量中,提出改进的自然向量法。它是一种非比对的序列表示法,将每条序列转化为一个向量,并且每条序列和它所对应的自然向量存在一一对应关系。此算法计算复杂度低,能够准确有效地反映序列信息,通过向量之间的距离实现序列相似性的比较,是研究物种分类学以及系统发育关系的有力工具。此外,本文在研究中将自助抽样法与改进的自然向量方法结合,计算构建的系统发生树的置信概率。新方法在多组细菌、真菌、病毒等大规模数据集的具体应用研究中表现出了很强的鲁棒性。研究将新方法与多种序列分析的方法比较,以及根据系统发育关系的置信性检验,验证新方法的可靠性与稳定性。为了进一步探究相同物种或同一家族包含序列的自然向量在空间中的分布规律,本文提出凸分析原理,并且在包括人类全部蛋白质数据以及真核生物蛋白激酶在内的多个数据规模大、物种(家族)类别个数多的可靠数据集上验证了凸分析原理,即不同物种(家族)包含序列对应的自然向量构成凸包是互不相交的。基于凸分析原理,每个物种可以由自然向量构建的凸包中心点来表示,不同物种的相似性通过中心点之间的欧氏距离来衡量,凸分析方法结合自然向量方法为研究分子生物学中的物种间系统发育关系提供了新视角,也为在给定类别中寻找新基因或未知蛋白质数据提供了新手段。
其他文献
互联网由许多的自治系统组成,在目前,各自治系统间依靠边界网关协议BGP保障路由。由于BGP协议在设计之时未考虑对控制报文携带的信息进行校验,这导致了目前频繁发生的、可能产生严重后果的安全威胁——域间路由劫持。域间路由劫持通过伪造或篡改BGP控制报文携带的路由信息,吸引更多自治系统的流量,从而形成路由黑洞,监听、篡改数据流量,或者造成网络拥塞或瘫痪。为了对路由劫持进行有效防御,保障互联网通信安全,研
杀人案件是指非法剥夺他人生命的犯罪行为构成的案件,其性质恶劣且后果严重。在杀人案件侦查分析过程中,对犯罪嫌疑人的研判是十分重要的环节,包括两部分内容:一是根据案件信息确定犯罪人特征进而确定侦查方向和范围,二是在确定的侦查范围内进行嫌疑人目标关联分析,进而对可能的目标人员进行犯罪嫌疑人排查。传统的嫌疑人研判主要依赖于专家经验分析,需要投入大量人力物力。随着公安数据的积累和信息化的进程,自动化研判模型
量子密钥分发(QKD)可以为通信双方提供无条件安全的密钥,和经典密钥体系相比,QKD有着严格的数学证明来保证协议的安全性。只要按照协议要求的条件来执行QKD过程,通信双方得到的密钥就是绝对安全的。但大部分QKD协议都假设了各种理想的条件,这些条件在实际系统中往往都不能被满足。想要在实际系统中实现安全的QKD过程,就必须考虑实际系统的不完美性,给出在非理想条件下的QKD协议。例如,诱骗态方法解决了没
近来,纯有机热活化延迟荧光(TADF)材料及器件受到了学界和业界的广泛关注。尽管TADF器件已经取得了极高的效率,但是严重的效率滚降(roll-off)和过短的寿命都制约着TADF器件进一步的实际应用。如何在保证高效率的同时抑制器件的roll-off、提高器件寿命成为了一个亟待解决的问题。基于此,本论文设计合成了一系列TADF染料和主体材料,制备了相应的TADF器件,并详细地探讨了主客体及其相互作
电子器件和空间飞行器的能量密度越来越高,亟需发展高效可靠的冷却方式。另一方面,核聚变能作为新型可再生能源,是解决能源危机的重要途径。其中,实现反应堆高热流表面的高效换热是核聚变能利用中需要解决的关键问题之一。由此可见,不论是电子和空间动力设备的发展,还是新能源的开发利用,实现热量的高效传递与控制均是其中的关键环节,发展高效可靠的冷却方式迫在眉睫。喷雾冷却具有对流换热系数高和冷却均匀性好的优势,在工
癌症是一种由体细胞突变引起的复杂疾病。识别驱动癌症形成的突变是癌症基因组研究的重要目标,驱动突变的识别有利于癌症精准医学的发展。高通量测序技术和体细胞突变检测工具的飞速发展产生了大规模的癌症体细胞突变数据,然而,在体细胞突变数据中,大量随机产生的乘客突变掩盖了与癌症有因果关系的驱动突变,区分乘客突变和驱动突变是癌症基因组研究的一个重要挑战。目前,研究者们开发了多种识别驱动突变的计算方法,其主要原理
微管的动态不稳定性在细胞分裂、迁移和极化等细胞生物学过程中扮演重要角色。微管动力学的核心在于微管末端的聚合动力学及其相应的特殊结构。同时,细胞中微管动力学的调控主要依赖于功能各异的各种微管相关蛋白,特别是微管正端追踪蛋白(Plus-end-tracking proteins,+TIPs)。我的博士论文针对微管聚合末端的动力学这一中心问题,主要包含两方面的内容:(1)提出了描述微管头部结构和动力学波
肺炎链球菌(Streptococcus pneumoniae)是定植于大多数人上呼吸道的正常菌,但在免疫力低下的个体中可导致侵袭性感染,引发肺炎、败血症和脑膜炎等严重疾病。研究发现,该菌可以在透明(transparent)和非透明(opaque)菌落之间发生可逆转的相转换。透明菌落产生较薄的荚膜,对细胞有更高的粘附性,在宿主上呼吸道呈现更强的定植力。而非透明菌落则产生厚实的荚膜,能够更有效地逃逸宿
高时空分辨电子成像与电子衍射技术是用以观测微观、超快过程的强有力工具。相比于传统透射型电子显微镜以及电子衍射中的ke V量级电子束,基于光阴极注入器的高能电子束具有亮度更高、穿透能力更强、脉冲结构更短的优势,有望发展出具有更高时空分辨能力的高能电子成像以及电子衍射工具,并在高能量密度物理(high energy density physics,HEDP)诊断以及超快动力学研究等领域发挥重要作用。论
近年来,基于激光等离子体加速器的逆康普顿散射X射线源——全光逆康普顿散射源(all-optical inverse Compton scattering X-ray source,AOCS)取得了 蓬勃的发展。AOCS由激光等离子体加速器电子束与激光对撞产生,拥有准单色、微焦点、能量可调、偏振可控、规模紧凑等特点,在医疗影像、工业无损检测、核物理研究等领域具有广阔的应用前景。但是,目前关于AOCS