【摘 要】
:
染色质三维结构在基因调控、DNA复制、DNA损伤修复及疾病中起到关键作用,通过折叠将线性基因组上本不相邻的基因位点拉近从而支持远程交互发生。为从全基因组层面研究染色质空间结构与调控关系,高通量染色体构象捕获技术(High-through chromosome conformation capture,Hi-C)应运而生。通过对细胞系中蛋白介导的邻近DNA片段高通量测序,获得全基因组范围内染色质相互
论文部分内容阅读
染色质三维结构在基因调控、DNA复制、DNA损伤修复及疾病中起到关键作用,通过折叠将线性基因组上本不相邻的基因位点拉近从而支持远程交互发生。为从全基因组层面研究染色质空间结构与调控关系,高通量染色体构象捕获技术(High-through chromosome conformation capture,Hi-C)应运而生。通过对细胞系中蛋白介导的邻近DNA片段高通量测序,获得全基因组范围内染色质相互作用图谱,从而研究基因组三维结构在基因调控和其它细胞基本功能中的作用。分析Hi-C数据是研究染色质三维结构的基础,其中度量Hi-C数据间的相似性并提取有效差异区域是常用方法之一。相似性量化作为基本的质量控制工具评估Hi-C实验可重复性,保证Hi-C数据科学有效,引导实验重复或深入进行。与此同时,了解重复样本间的相似性也是差异分析中的重要步骤,是可靠识别具有生物意义差异区的前提条件。差异区域的识别是从三维基因组角度解释不同状态细胞生物功能差异的重要方法,例如分析健康和疾病细胞间染色质调控差异,引导下游实验分析。然而,复杂的实验步骤所引入的技术偏差和DNA序列驱动的噪声对Hi-C数据间系统比较提出一定挑战,现有方法在计算效率、准确性及解释性上仍有不足之处。据此,本文提出了一种基于域骨架的Hi-C数据比较方法,使用高斯混合模型聚类和KD-Tree等方法,经筛选、合并及对齐等步骤,得到能够刻画整个Hi-C交互作用图的显著交互点集合,定义为域骨架。结合相似性计算公式,将不同Hi-C数据域骨架吸收,计算相似性量化值。通过高斯滤波计算域骨架局部相对差异分数,根据阈值筛选显著差异点。从而,基于域骨架完成Hi-C数据相似性度量和差异区域鉴别。域骨架的引入,有效减少了噪声的干扰,降低了高分辨率数据的计算规模,提升差异点有效性和可解释性。为验证域骨架的有效性和可解释性,将域骨架和染色质结构loop一致性进行比较,得出平均重合比例达97.9%。针对相似性度量,与HiCRep和GenomeDisco方法在不同数据规模、不同分辨率的Hi-C数据上进行比较,发现波动幅度低10%至70%不等,说明本文方法在稳定性上优于其它方法。在5kb数据下计算效率较GenomeDisco快50倍取得显著提升。针对差异区域检测,使用多种细胞真实Hi-C数据与Find和Selfish方法在检出的差异位点一致性达到75%,对应基因一致性达85%。此外,根据差异点与TAD、基因之间重叠比例分析、差异区域基因富集分析及差异区域中心显著性分析说明本方法在准确率和可解释性上均优于其它方法。与此同时,利用泊松分布生成Hi-C模拟数据并预置不同显著强度差异点与上述方法比较,结果显示本文方法在查全率和准确率上均优于其它方法。进一步,通过比较平均运算时间,发现本文方法仅为Find方法的0.79%,较Selfish方法速度提升8.8%。通过以上实验表明,本文提出的Hi-C数据比较方法是一种具有较强准确性、稳定性、解释性和高效性的方法。
其他文献
近年来,随着卷积神经网络和三维数据获取技术的不断发展,三维目标检测技术已经成为计算机视觉和自动驾驶领域的核心技术之一。与二维目标检测技术相比,在三维空间中进行目标的位姿估计对于实际应用场景更加重要。相比于二维图像数据,三维点云数据具有不受遮挡、光照变化影响且含有目标的位姿信息的优点,然而没有提供语义信息;二维图像数据具有丰富的语义信息,然而易受遮挡、光照等的影响且不含有目标的位姿信息,所以,它们二
本文基于电磁波在大气中的传播规律,分析了在地-电离层波导中透射电磁波传播路径的求解方法,研究了超视距下电波的传播特性。针对微小区电波传播预测算法对环境变化适应度不高的问题,本文采用遗传算法结合实测功率数据反演了给定环境的最优电参数,提高了微小区电波传播预测算法的仿真精度与环境适应性。将智能优化算法与优化后的微小区电波传播预测算法相结合,研究了基于网规网优理论的微小区最优化基站位置的获取方法。本文的
随着经济的不断转型和发展,企业核心竞争力已经成为企业发展的关键,对于非核心业务,企业往往选择将其进行业务流程外包。在大型设备的销售过程中,往往需要生产商提供安装及调试服务,但受到地域、工期等因素的影响,生产商通常选择将安装及调试服务外包给第三方施工队。在这种情况下,传统做法是通过电话沟通、现场监管、做工作记录来跟踪监控施工进度。但是,这种传统管理方式往往会带来各种问题,如施工效率过低、数据不易保存
自2018年李克强总理提出“互联网+政务服务”概念以来,国内的政务智能问答系统不断涌现。但是大多数的政务问答系统都是基于知识图谱的检索式问答,由于实体和关系的抽取比较复杂,导致知识图谱的构建需要耗费大量的时间和人力。随着深度学习技术在自然语言处理中的广泛应用,目前也出现了一些基于机器阅读理解的问答系统,但是由于这些机器阅读理解模型结构设计过于简单,只能适用于一些简单问题的回答,对于多跳推理的复杂问
机器人作为一个非常复杂的多输入输出非线性系统,具有强耦合、时变和非线性的动力学特性。目前,在大多数传统的机器人控制系统中,由于各执行机构单独工作,与其它机构之间没有信息交流,从而执行机构之间缺少同步协调性。而多轴系统交叉耦合控制技术的提出为机器人系统协调同步控制问题提供了一个解决方案。目前大多数多轴机器人系统的同步控制都只是达到渐近稳定,而在实际情况中,机器人系统不仅要精确地到达控制目标,其收敛所
时间序列数据是在不同时间上收集到的数据,用于所描述现象随时间变化的情况。这类数据反映了某一事物、现象等随时间的变化状态或程度。时间序列数据在现实生活中广泛存在,例如金融领域中的交易数据和经济统计数据、消费电商领域中的用户浏览和购买数据、医疗领域中的医疗器械的信号记录、天气监测站记录的天气指标数据等这些时间序列数据是相应领域的非常宝贵的数据资源,对这些数据的准确、有效分析和利用能够帮助减小人力成本,
在大气层中,随着飞行器飞行速度的不断提高,飞行器会逐渐面临音障、热障、黑障等重要挑战。临近空间高超声速飞行器在再入大气的过程中,具有很高的飞行马赫数,与背景大气之间产生剧烈的摩擦,进而导致飞行器表面及其周围气体温度急剧上升。高温会导致飞行器表面变形甚至熔化,需要采用新型热防护材料来克服“热障”带来的困扰。在高温的作用下,包覆在飞行器周围的气体会发生热化学电离反应,产生一层“等离子体鞘套”。等离子体
近年来,高速摄像机在军工、航天、医疗和科研等方面的发展引人注目。它可以记录高速运动物体的运动状态,使用高帧率来捕获人类眼球无法观察的高速运动画面,并在采集完成后,通过超慢速回放来观察高速运动物体轨迹。但目前市面上的高帧频摄像机尚不具备长时间工作的能力,原因是高帧率的摄像机往往帧率过大,每秒产生的数据量也随之增大,这给存储系统带来了巨大压力。因此,本文针对高帧频图像实时压缩算法以及FPGA硬件实现展
随着中国航天技术的不断发展,星载嵌入式计算机的系统功能日益复杂,执行的任务形式和种类越来越多样,在计算和存储资源受限的背景下,如何对其存储的数据进行高效的分析和管理成为了新的挑战。SQLite数据库是一种直接嵌入到应用程序中、零配置、轻量、高效的软件,能够很好地解决单一文件系统对大量数据的统计分析能力不足的问题,有效降低应用开发的复杂度,提高应用程序的性能和稳定性。本论文以实际项目需求为背景,结合
作为无线通信系统的重要组成部件的天线,其宽带化研究显得尤为重要。近几十年来,微带天线的发展极大推动了天线事业的进步,然而其进一步发展受限于较窄带宽。而近年来,一种直接以超表面作为辐射体的天线发展迅猛,其具备微带天线的低剖面等众多优点,还相比微带天线有着更加丰富的模式和更宽的带宽。尤其是在引入特征模理论来预测模式和指导馈电结构设计之后,超表面天线在宽带等多个方面取得了长足进步。然而,这类天线的馈源还