论文部分内容阅读
从海量生物数据中挖掘出反映疾病发生发展变化的重要信息,尤其是恶性肿瘤发生的关键特征,是生物信息学及其应用研究的一个热点问题。在生命机体中,分子间彼此相互关联、相互作用,共同完成各项复杂的生理功能。因此,疾病状态中发生扰动的不仅是一个分子,而是多个分子间的关联关系。关注疾病发生发展中分子间关联性的改变,获得有效地反映生命机体病变的重要特征,有助于提高疾病的临床诊断效果。本文从探究分子间的相互关系入手,研究基于特征间关联关系的数据分析新算法,将所研制的新方法应用在疾病组学数据中,从网络或组合标志物层面发现有助于疾病诊断的关键信息。本文工作主要包括: (1)提出了一种新的特征对评价算法,不同于仅考察特征间水平比较关系的特征对评价算法,本算法同时分析特征间的水平和垂直比较关系在疾病发生发展过程中的变化,挖掘特征间具有判别能力的关联信息,并依据所选出特征对的比较关系构建相应的分类模型。在分析基因组学数据和代谢组学数据的实验中,该算法所构建的分类器表现出更好的分类性能和更强的鲁棒性,实验结果表明该算法从不同角度分析特征间的关联关系,可以发现更多的判别信息,促进临床诊断和疾病标志物的研究。 (2)提出了基于组合特征的分类模型构建算法,该算法通过探究特征间的水平比较关系,筛选具有判别能力的特征对,迭代地构造有效的组合特征,所生成的组合特征参与分类模型的构建。组合特征不局限于只考察两个特征间的关联性,而是根据迭代分析的结果确定,并且基于原始单特征和组合特征建立有效的分类模型。该算法在分析基因组学数据和代谢组学数据时,可以有效地区分数据集中不同类别的样本,实验结果说明挖掘特征间具有判别能力的关联关系、迭代地构建新的组合特征,有助于促进疾病的分型研究。 (3)提出了基于有效范围的非重叠率的代谢网络构建和动态网络分析新方法。该方法通过探究病变过程中通路反应的紊乱程度构建动态代谢网络,描绘复杂疾病发生发展过程中代谢轨迹的动态变化。根据该网络构建方式特点,提出了拓扑结构分析和动态浓度分析方法,以确定疾病恶化的关键时间节点、筛选具有预警作用的网络信息和重要代谢比值特征。将所研制的方法应用在大鼠肝癌队列数据中,确定了重要代谢比值特征LPC18∶1/FFA20∶5,该比值标志物不仅可以有效地区分动物模型中的肝癌样本,其表达值升高也可以预警肝癌的早期发生。 (4)提出了提取差异性网络子图的新方法,通过分析比值特征的相关性网络,发现节点间关联关系在不同生理、病理状态下的差异,提取反映机体病变的差异性子网;基于差异性子网的拓扑结构分析,确定与所研究问题相关的重要比值特征。该方法既可以分析静态数据以寻找疾病的判别信息,也可以分析时间序列数据以发现疾病的预警信号。将所研制的方法应用在静态的基因组学数据和动态的代谢组学数据上,实验结果表明提取比值特征的相关性差异子网可以为分析复杂的疾病组学数据提供新思路。 为探究特征间关联性在疾病发生、发展中的变化,发现可以反映机体病变的重要的关联关系,促进临床疾病的诊断研究和标志物筛选,本文以疾病组学数据为主要研究对象,以临床标志物筛选为研究目标,研制从网络和组合标志物层面分析复杂组学数据的新方法;并将开发的新方法用于疾病的分型和潜在生物标志物的研究,以获得有效地反映生物体病变的关键特征。本文所开发的数据处理方法可为疾病特征提取和标志物筛选提供有效的新工具。