【摘 要】
:
随着高通量测序技术的发展,生物信息数据已进入到EB量级的多元组学大数据时代。如何将生物信息大数据迅速转化为新知识,并能应用于进一步的研究中,则需要依赖于数据挖掘技术的运用。对于人类基因组的研究,有研究表明,在人类基因组中存在CpG岛这么一种特殊的DNA序列,它与人类基因表达调控密切相关,对于研究CpG岛序列在基因座上的分布、CpG岛序列的特异性、CpG甲基化编码与基因的关系及其功能相关性等是非常重
论文部分内容阅读
随着高通量测序技术的发展,生物信息数据已进入到EB量级的多元组学大数据时代。如何将生物信息大数据迅速转化为新知识,并能应用于进一步的研究中,则需要依赖于数据挖掘技术的运用。对于人类基因组的研究,有研究表明,在人类基因组中存在CpG岛这么一种特殊的DNA序列,它与人类基因表达调控密切相关,对于研究CpG岛序列在基因座上的分布、CpG岛序列的特异性、CpG甲基化编码与基因的关系及其功能相关性等是非常重要的。因此本文目的在于利用大数据挖掘与分析的方法对CpG岛的序列特性及甲基化等方面进行相关研究。基于国内外现状调研,对于CpG岛相关研究尚存在如下几个问题:(1)以往的研究中,根据CpG岛密度的变化将CpG岛分为高密度CpG岛组、中密度CpG岛组和低密度CpG岛组,但CpG岛密度与基因表达调控之间的关系仍不清楚。(2)现有CpG岛识别算法应用在数据量较大的基因组数据中时,其运算速度明显偏慢,并且内存消耗过大。(3)现有web服务平台的功能主要集中于对CpG岛数据的简单统计与下载,但没有通过可视化的方法对CpG岛的基因特征的关系进行研究与展示。针对上述问题,本文的主要研究内容和研究成果如下:(1)本文在CpG岛大数据研究模型中,引入了CpG岛密度这个研究参数,从CpG岛的密度、序列特性、甲基化状态、基因表达特异性、CpG位点分布等方面对CpG岛基因序列大数据进行了多维度相关分析,提出了一种基于GTEx项目、CpGcluster算法和GO富集分析方法相结合的人类基因组大数据标注和分析方法。本文基于此,1、讨论了CpG岛相关基因主要受高密度CpG岛组的调控,以及看家基因主要受CpG岛相关机制调控的原因。2、发现了HCGI/TATA±组和LCGI/TATA±组表现出不同的GO富集功能,而ICGI/TATA±组的GO富集分析结果较差。3、证明了CpG密度与CpG间距在CpG岛研究中的重要性。(2)本文设计了基于Map Reduce和Hadoop Streaming框架的MR-CpGcluster分布式算法,并证明了其比原来的CpGcluster算法具有更高的并行性能和运算效率,对于更大量的生物信息数据具有更高的加速比、扩展性和规模增长性。(3)本文开发了提供CpG岛相关研究功能的可视化大数据分析web平台,支持CpG岛研究数据的在线分析、可视化构图和下载功能等,并且将本文对于CpG岛的研究内容与成果集成于该平台中。
其他文献
随着我国公路里程不断增长、汽车保有量不断增加、道路交通基础设施不断完善,促进了经济发展,为人们出行带来极大方便。然而,快速发展的道路交通给我国带来巨大经济效益的同时也带来了大量的交通事故,其中雨、雾和夜间低照度等恶劣气候环境是重要原因之一。因此本文针对雨、雾和夜间低照度不利行车环境,构建人-车-路协同安全预警系统,建立了车辆在不利行车环境中行驶的事前预防、事中避免和事后道路设施优化完善的交通体系。
氧化铝陶瓷片是军工领域中爆炸箔的重要功能器件,其工作可靠性具有十分重要的意义。由于陶瓷材料本身的结合方式会导致韧性较差,加之后续工艺可能会涉及到的机械冲击、酸碱腐蚀、温度冲击等一系列复杂加工流程,会使氧化铝陶瓷片面临如高强度、脆性大、均匀性差等可能对其工作性能造成影响的问题。为了提高以氧化铝陶瓷片作为关键组成的军工器件的可靠性,需要对成型氧化铝陶瓷片进行加工工艺质量检测。由于氧化铝陶瓷片加工工艺流
从20世纪80年代开始,CAD技术进入了高速发展阶段,其人机结合的设计方法大大地提高了企业的设计效率。连接器作为电器元件间的连接件,起着连接或断开电流或者信号的作用,广泛地应用于各种电气线路中。当企业在运用CAD技术对大量相同类型不同规格的连接器CAD图进行重复性绘制时,绘制过程繁琐复杂、易出错以及耗时等问题就会接踵而至,严重地影响到了连接器CAD图的绘制效率以及企业的经济效益。因此,如何有效解决
液压挖掘机的设计过程则是一个知识密集型的过程,在设计的各个阶段都需要大量的相关知识予以支撑,而这些所需的知识种类繁杂多样且相互关联。然而目前挖掘机的设计工作,依然大量的依靠设计人员自身的设计经验、现有的设计文献等手段进行设计计算,这不仅不利于知识的重用也存在重复计算,工作量大、效率低下等问题。同时,如何有效的管理这些知识,是提高企业创新竞争力的主要研究内容。为了解决以上问题,本文根据液压挖掘机的设
经济与资源全球化现象以及以3D打印为代表的智能制造技术发展使得客户对于零件的个性化定制提出了更高的要求,结合互联制造的时代背景,以网络为基础的协同工作环境也为零件远程定制提供了更多的可能性。基于远程协同的零件定制系统平台应运而生,为客户和企业服务商之间搭建了信息互通的桥梁。目前现有的3D打印零件定制系统平台多数对于普通用户的友好度不够,并且以线性的单向需求传递为基础来进行反馈,缺乏高效率的协同设计
地质灾害监测关键设备及采集数据处理是整个地质灾害监测过程中的关键步骤,其核心是解决地质灾害防控过程中的数据采集、数据传输、数据处理和预警模型的研发。由于地质灾害的监测是一个影响因素众多、监测环境复杂、并且需要进行长期监测过程,所以建立一套高可靠的地质灾害信息化管控系统十分必要。本文主要实现基于GIS的地质灾害监测设备及系统研发。在传感器将数据采集完成后,将数据通过无线传输到四川省地质灾害数据中心。
抑郁症是一种的常见精神疾病,重度抑郁症甚至导致患者自残或自杀,并且自杀事件的发生已开始呈现出低龄化趋势,严重影响个人、家庭和社会。临床证明,提早发现抑郁症并进行有效的心理干预和药物治疗,能够缓解甚至治愈抑郁症患者。然而,抑郁症的病因繁复多样,导致临床诊断困难,误诊、漏诊率较高。临床发现,抑郁症患者在语音、文本、表情、生理等模态的数据上都表现出一定的特异性。针对抑郁症多模态数据,建立计算机辅助诊断模
每年由于人口老龄化、车祸以及肿瘤等引起的严重骨组织病损有上千万例,骨科临床亟需研发具有个性化尺寸特征以及优良骨整合效果的骨组织工程支架。骨组织工程支架的表面是宿主骨组织与植入材料相互作用的重要界面,是成骨细胞黏附、增殖、分化的主要场所,其对骨整合性和骨组织修复重建具有决定性的作用。本文利用选区激光熔化3D打印技术制备具有个性化宏观尺寸特征的骨科植入体,通过调控3D打印中的关键工艺参数,提出一种基于
近几年,人脸图像在视频监控和识别领域的应用越来越广泛,人脸图像数据显得更加重要。在获取人脸图像的过程中往往会产生模糊,其中最常见的是相机与人物之间相对运动造成的模糊,称为运动模糊。产生运动模糊的人脸图像会大幅影响监控与识别的效果。因此,去除人脸图像的运动模糊在计算机视觉任务中有着重要意义。在计算机视觉领域中,现有的人脸图像去模糊算法并没有针对运动模糊问题;而已有的去除运动模糊算法并没有针对人脸图像
关系抽取旨在识别文本中的成对实体的关系事实,被广泛应用于知识图谱构建和自然语言处理领域。与专注人工设计特征的传统方法相比,基于深度学习的关系抽取方法已取得了显著成果。但是,现有的这些关系抽取方法通常假定待预测的关系类别是一个封闭的关系集合,没有考虑需求的动态变化,不适用于实际的应用场景中。由此引出了对终身关系抽取的研究,也就是说,需要预测的一组关系可能会随着时间的推移而改变或扩大,同时我们无法在每