DNA甲基化数据的计算分析方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:chenww275245962
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表观遗传学通过研究影响恒定DNA序列和可变基因表达模式之间信息流动的分子过程,提供了关于细胞分化以及生物体发育的新见解。DNA甲基化作为一种关键的表观遗传修饰,通过改变染色质结构、DNA稳定性以及DNA与蛋白质相互作用,从而调控基因表达。DNA甲基化检测技术的发展积累了海量数据,不同检测技术生成的甲基化数据从不同角度描述了DNA甲基化这一表观遗传修饰的生物学特征,为深入揭示DNA甲基化对生物体发育的调控机制提供了新的机遇。本文基于已有的DNA甲基化数据,通过研究相应的计算分析方法以探索DNA甲基化的生物学意义,挖掘DNA甲基化数据中蕴含的生物学价值。主要的研究内容包括全基因组位点甲基化水平的预测建模,差异甲基化位点的识别以及单细胞甲基化数据的聚类分析,具体如下:(1)针对当前DNA甲基化预测方法需求手动筛选或预定义特征的问题,提出一种基于深度卷积神经网络的全基因组位点甲基化回归预测模型MRCNN。MRCNN利用Cp G位点甲基化与邻近DNA序列模式之间的关联,以目标Cp G位点为中心,将其邻近的DNA序列编码为稀疏矩阵作为输入。通过构建针对DNA序列模式的二维卷积神经网络提取与位点甲基化相关的预测性特征,并结合连续损失函数实现目标Cp G位点甲基化水平的回归预测。多个数据集上的实验结果表明,MRCNN相比当前方法能够更准确地预测全基因组位点甲基化水平。此外,通过分析MRCNN训练过程中自动学习到DNA序列特征,发现了与甲基化状态相关的序列基序,其中部分基序与已知注释基序显著匹配,并可能在DNA甲基化的调控中起关键作用。(2)针对当前差异甲基化位点识别方法结果鲁棒性较差的问题,提出一种基于混合集成特征选择的鲁棒差异甲基化位点识别方法Hy DML。Hy DML综合考虑集成特征选择策略中的函数多样性与数据多样性,利用多种基本特征选择算法在多个数据子集上获取潜在的差异甲基化位点子集,然后通过聚合函数实现鲁棒差异甲基化位点的识别。将其应用到13种癌症相关的甲基化数据集上,Hy DML识别出的差异甲基化位点比其他方法能够更准确地区分正常和癌症样本,并且显示出更好的鲁棒性。此外,对Hy DML识别的鲁棒差异甲基化位点进行综合分析揭示了部分癌症具有相似的甲基化模式,并且发现多种癌症中共享的鲁棒差异甲基化位点能够作为潜在的泛癌生物标志物。(3)针对当前单细胞甲基化数据聚类方法仅靠单一距离度量描述细胞间甲基化差异关系造成聚类性能有限的问题,提出一种基于多距离谱嵌入融合的单细胞甲基化聚类方法SINCEF。SINCEF利用谱嵌入和矩阵融合,将多个基本距离度量定义的细胞间甲基化距离关系整合到一个新的距离度量中,以更高的分辨率量化细胞异质性,并结合层次聚类算法实现细胞类型辨识。多个真实单细胞甲基化数据集上的实验结果表明,SINCEF相比基于单一距离度量的方法显著提升了聚类精度。此外,得益于新的距离度量,SINCEF能够方便地基于细胞间距离矩阵直观地评估细胞亚群结构,提升细胞聚类结果的可读性。(4)针对当前单细胞甲基化数据聚类方法在不同数据集上聚类性能不稳定的问题,提出一种基于增强共识聚类的单细胞甲基化聚类模型sc Melody。sc Melody基于细胞间多种基本相似性度量的聚类结果,利用所提出的正则化策略和双重加权策略来改进传统共识聚类中对于共识矩阵的构造,以此重构细胞间甲基化相似性模式来聚类细胞。多个真实数据集与合成数据集上的实验结果表明,sc Melody实现了比当前方法更先进的聚类性能,并且在具有不同细胞数、集群数和Cp G缺失比例的数据集上展现出更好的聚类稳定性。此外,真实案例研究表明sc Melody能够在具有复杂细胞组成的大型数据集上识别稀有细胞亚群。
其他文献
随着计算力的提升,机器智能的发展,人类能够利用海量的信息训练模型。然而,机器想要准确地利用信息,需要准确的标注信息,否则杂乱的信息与噪声无异,学习模型的任务也无从谈起。同时,人们所拥有的少量标注数据和将要被处理的未标注数据,有时只是在观感上相似,实际却并不属于同一个概率分布。在这种情形下,传统的基于同分布的监督学习,无法解决标注数据与未标注数据的分布差异。如果无视分布差异,将标注数据学习到的模型强
学位
D-T聚变由于原料资源充足、安全可靠且不会产生大量废弃物,被认为最有希望彻底解决人类的能源问题。为了达成这一目的,中国、欧盟、美国、韩国、日本、俄罗斯和印度合作签署了影响深远的能源项目,共同建设世界最大的磁约束聚变设施,即国际热核聚变实验堆(International Thermonuclear Experimental Reactor,ITER)。我国为了弥补 ITER 和聚变示范堆(Demon
学位
上转换发光生物传感器以上转换纳米颗粒(Upconversion Nanoparticles,UCNPs)为标记物,主要由上转换纳米探针、免疫层析试条和上转换检测仪组成。上转换发光生物传感器具有操作简单、反应快速、灵敏度高、稳定性好等优点,在疾病诊断、食品安全、环境保护和国家安全等领域具有广阔的应用前景。本文以上转换发光生物传感器检测大分子心肌标志物——心肌肌钙蛋白I(Cardiac Troponi
学位
本研究采用亲子互动和情绪社会性量表对哈尔滨市139个家庭施测,将亲子互动分为亲密回应性和引导性两个维度,将情绪社会性分为外显行为域、内隐行为域、失调域和能力域四个维度进行考察。研究结果显示:亲子互动的亲密回应程度可预测婴幼儿外显行为域和能力域得分,即父母的亲密回应程度越高,婴幼儿的外显行为问题越少,且能力越强;独生状况是亲密回应性与外显行为域的调节变量,且独生子女家庭的亲密回应程度越高,婴幼儿的外
期刊
目标检测算法作为深度学习和计算机视觉领域最重要的研究方向之一,有众多的研究成果被相继提出。但是当这些算法被应用到实际的视频图像中检测时,检测效果往往不太理想。原因主要分为外源性和内源性两种,外源性原因是目标检测模型普遍在遇到低分辨率图像时检测准确度会大幅下降,而内源性原因是不同的目标检测算法本身的缺陷,导致模型在极端尺寸以及相似的密集分布目标等非常规类型检测对象上出现检测准确度大幅下降的情况。这些
学位
大量研究显示家庭社会经济地位(socioeconomic status,SES)影响儿童阅读能力的发展,但是其内在作用机制尚不清楚。本研究采用元分析结构方程建模技术,考察儿童语言认知能力(语音意识、词汇知识)在家庭社会经济地位和阅读能力(阅读准确性(RA)、阅读理解(RC)和阅读流畅性(RF))间的中介作用,及模型中可能存在的调节因素(如SES类型、国家SES、被试年龄、书写系统和被试取样年份)。
会议
近年来,得益于超短强激光脉冲技术的发展,高次谐波等固相超快动力学过程的研究正成为强场和阿秒物理领域中备受关注的热点课题。由于晶体具有原子密度高、晶格具有空间平移对称性、旋转对称性、反演对称性等特点,这些对称性与激光场的时域对称性形成的联合时空对称性在固体高次谐波的产生过程中扮演了关键的角色。本论文以具有反演对称的一维模型晶体和反演对称性破缺的二维材料(单层二硫化钼晶体)为对象,利用半导体布洛赫方程
学位
二维材料自发现以来因其独特的结构和性质而备受关注,随后大量的新型类石墨烯二维材料相继被发现或合成,如六方氮化硼和石墨相氮化碳等。同时,金属团簇也因其超小尺寸和高催化活性而广受欢迎。本论文基于第一性原理计算,围绕金属团簇对类石墨烯二维材料电子结构以及吸附和催化性质的修饰作用进行了系统的理论研究,分析了金属团簇和类石墨烯二维材料的结构和电子性质,预测了对有害气体或有害金属元素具有优良吸附特性的上述复合
学位
信息物理系统(Cyber-physical system,CPS)推动着信息数据流与物理主体的高层次融合互动,在工业、国防和民生基础设施等领域有着重要应用。然而,CPS面临着网络攻击、通信资源紧缺等挑战,其物理层亦存在系统非线性、随机扰动和不确定性等问题,影响着CPS的稳定运行。为此,本论文从系统控制的角度出发,开展网络攻击下的信息物理系统事件触发容错控制研究,提升网络资源利用效率,提高CPS系统
学位
钽酸锂(LiTaO3)热释电红外探测器具有非制冷、功耗低、光谱响应宽和稳定性好等优点,在目标探测、气体检测、安防及智能家居等方面应用广泛。但目前的LiTaO3热释电红外探测器存在两个突出问题,一是无法通过传统方法制备高品质LiTaO3单晶薄膜提高探测峰值频率,二是传统结构包含无法与敏感元集成的滤光片,难以满足器件高频应用和小型化的发展需求。针对上述问题,本论文提出基于离子注入剥离技术和超材料完美吸
学位