论文部分内容阅读
肿瘤是威胁人类健康的一大杀手,不仅发病率越来越高,而且发病年龄也趋于年轻化。在我国,肿瘤患者的死亡率逐年上升。目前的肿瘤筛查方法,主要是通过临床手术以及细胞观测等方法判定肿瘤类型。这些方法基于形态学并且具有某些缺点,因为肿瘤的发生是一个多阶段逐步演变的过程,是多种复杂因素共同作用的结果,相同类型的肿瘤可能具有临床差异。因此,从分子生物学水平发现和鉴定与肿瘤相关的重要信息是生物信息学研究中的一个重要课题。而随着生物学数据的巨大积累以及生物信息学的快速发展,将会有越来越多的重大生物学规律会被发现。
过去,研究人员认为基因突变对肿瘤的形成起到至关重要的作用。然而越来越多的研究表明,肿瘤的发生和发展除了基因突变外,转录组以及表观遗传组的改变也同样起着非常重要的作用。但与DNA突变不同的是,表观遗传物质可以在核酸序列不发生改变的情况下发生突变,具有丰富的多样性并且是可逆的,这就为肿瘤疾病的治疗提供了乐观的前景。因此,我们可以依据肿瘤多组学数据,从多分子层次出发,系统研究基因、RNA、表观遗传修饰之间的相互作用及其对肿瘤的调控影响。
本文的主要工作包括以下两个方面:
首先阐述了肿瘤多组学研究的现状和数据挖掘技术在肿瘤细胞研究中的主要应用。在此基础上,提出了一个基于FP-growth的肿瘤表观遗传修饰组合模式的挖掘算法Tri-cluster,该算法主要步骤如下:(1)对肿瘤多组学数据进行预处理,包括归一化和去除噪声,使得不同肿瘤类型的组蛋白修饰数据处于同一量级;(2)对数据进行分段,将不同肿瘤的组蛋白修饰数据进行相关性运算,并通过设置阈值来筛选出具有相似变化趋势的集合;(3)基于FP-growth算法,通过一次深度遍历挖掘频繁项集,得出具有相似组蛋白变化模式的簇;(4)分析几种肿瘤在表观遗传和基因表达上的相关性,进而分析表观遗传修饰对肿瘤基因表达的调控机制。
同时,利用 Web 开发和数据库技术,本文设计了一套小型的肿瘤多组学数据集成系统 HTMID,并对各模块进行了测试。系统集成了肿瘤多组学数据,包括基因组、基因表达和表观遗传组数据。系统具有基于 Web 页面的肿瘤多组学数据查询、可视化、文件以及用户管理等主要功能。
实验结果表明,本文提出的基于FP-growth的肿瘤表观遗传修饰模式挖掘算法Tri-cluster能有效的发现不同肿瘤所具有的相似表观修饰模式,开发的肿瘤多组学数据集成分析系统也在研究中得到了应用和检验。
过去,研究人员认为基因突变对肿瘤的形成起到至关重要的作用。然而越来越多的研究表明,肿瘤的发生和发展除了基因突变外,转录组以及表观遗传组的改变也同样起着非常重要的作用。但与DNA突变不同的是,表观遗传物质可以在核酸序列不发生改变的情况下发生突变,具有丰富的多样性并且是可逆的,这就为肿瘤疾病的治疗提供了乐观的前景。因此,我们可以依据肿瘤多组学数据,从多分子层次出发,系统研究基因、RNA、表观遗传修饰之间的相互作用及其对肿瘤的调控影响。
本文的主要工作包括以下两个方面:
首先阐述了肿瘤多组学研究的现状和数据挖掘技术在肿瘤细胞研究中的主要应用。在此基础上,提出了一个基于FP-growth的肿瘤表观遗传修饰组合模式的挖掘算法Tri-cluster,该算法主要步骤如下:(1)对肿瘤多组学数据进行预处理,包括归一化和去除噪声,使得不同肿瘤类型的组蛋白修饰数据处于同一量级;(2)对数据进行分段,将不同肿瘤的组蛋白修饰数据进行相关性运算,并通过设置阈值来筛选出具有相似变化趋势的集合;(3)基于FP-growth算法,通过一次深度遍历挖掘频繁项集,得出具有相似组蛋白变化模式的簇;(4)分析几种肿瘤在表观遗传和基因表达上的相关性,进而分析表观遗传修饰对肿瘤基因表达的调控机制。
同时,利用 Web 开发和数据库技术,本文设计了一套小型的肿瘤多组学数据集成系统 HTMID,并对各模块进行了测试。系统集成了肿瘤多组学数据,包括基因组、基因表达和表观遗传组数据。系统具有基于 Web 页面的肿瘤多组学数据查询、可视化、文件以及用户管理等主要功能。
实验结果表明,本文提出的基于FP-growth的肿瘤表观遗传修饰模式挖掘算法Tri-cluster能有效的发现不同肿瘤所具有的相似表观修饰模式,开发的肿瘤多组学数据集成分析系统也在研究中得到了应用和检验。