论文部分内容阅读
如何从大量数据中挖掘出有意义的信息,如何把复杂的研究对象用精确而简明的模型描述出来一直是数据处理工作中的中心课题。针对这个问题有两种截然不同的方法:数据挖掘和复杂网络理论。复杂网络和数据挖掘方法不仅有着相似的研究目的,而且其分析对象在多数情况下也相同。但在实验数据分析中将两者协同应用解决同一问题的情况比较少,主要原因是两者在分析对象上有较多重叠,在多数情况下仅用一种方式就可以解决问题。但实际上,将数据挖掘和复杂网络很好的结合起来解决问题会给数据分析提供新的思路。本研究将复杂网络和数据挖掘相结合,同时用于分析癌症相关基因/蛋白,结果表明复杂网络和数据挖掘技术的协同应用可以为生物学数据的分析提供新的切入点。对癌症的研究积累了大量而且类型丰富的数据,利用这些数据发现癌细胞中关键的基因及其作用途径一直是重要的研究方向。得益于丰富的数据,癌症领域的数据分析方法也层出不穷,其中结合蛋白质相互作用网络分析基因及蛋白功能的方法是一个重要的类别。在癌症相关的信号传导,细胞定位和表达调控等过程中蛋白质相互作用扮演重要的角色,因此以蛋白质相互作用为基础整合其它组学数据的生物信息方法对分析参与这些过程的关键基因及蛋白至为重要。本研究不仅以人类蛋白质相互作用网络为基础,结合基因表达、基因重要性及基因突变数据优选并分析了癌症相关基因/蛋白和蛋白组合,还利用新的模型将生物网络与组学数据有效的结合起来,为后续分析提供帮助。本文的工作主要包含以下两个方面:(1)结合蛋白质相互作用网络和蛋白质、基因的表达数据预测新的癌症相关基因和蛋白质组合。蛋白质相互作用网络是典型的复杂网络,网络中每条边表示一对蛋白质的相互作用关系。表达数据包含基因或蛋白质在癌症组织、癌症细胞系和正常组织的样本中的表达量的信息,比较两类样本可以得到与癌症关联密切的基因或蛋白质。本研究将蛋白质相互作用网络用于构建稀疏的自动编码机,而后用癌症细胞系和正常组织的差异表达数据作为训练数据,训练后的自动编码机同时包含相互作用信息和差异表达信息。将训练得到的自动编码机用于构建一个深层模型,来模拟每个蛋白质/基因敲降对其它蛋白质/基因表达的影响,最后将这种影响关系表示为有向网络的形式。蛋白间相互影响的有向网络可以用于鉴定新的癌症相关蛋白。在本研究优选的TOP 500个高可信度的癌症相关蛋白中有211个为已知的癌症药物靶点,其余蛋白质的功能与癌症也密切相关。与其它方法相比较该方法有较高的AUC值(>0.8)。蛋白间相互影响的网络也可以用于预测蛋白组合。本文中提到的蛋白组合可以是合成致死组合,也可以是药物靶标的组合。这两类蛋白组合在蛋白相互影响网络中都与特定的蛋白存在密切联系。本研究利用已知的蛋白组合将这组蛋白质识别出来,并用于识别新的蛋白组合。交叉验证表明该策略有较高的准确度(>0.85),可以用于鉴别新的蛋白组合。进一步将该模型用于前列腺癌的单细胞测序数据集,单细胞测序可以检测病患体内癌细胞群体的演化,对临床治疗有重要意义。文中利用前列腺癌的数据集训练模型且计算了相应的蛋白影响网络,然后利用该网络识别了前列腺癌蛋白,其中包含已知的前列腺癌基因。这表明该模型适用于单细胞测序数据和小样本数据,具有良好的应用前景。(2)结合蛋白质相互作用网络和基因重要性数据寻找复杂的基因关联关系。在本研究中蛋白质相互作用网络依然表示两个蛋白质间的相互作用关系。基因重要性数据是通过CRISPR(Clustered regularly interspaced short palindromic repeats)试验方法随机突变细胞系基因组得到,简单来讲基因重要程度越高,可以承受的突变越少。通过比较初始CRISPR随机突变的细胞系和经过一段时间的培养的细胞系间基因组的差异可以得到基因重要性数据。本研究将基因的重要性数据通过新方法转换为蛋白质相互作用的重要性。相互作用的重要性可以用于筛选重要的互作,计算相互作用间的相关性以及重新评估基因的重要性。本研究利用蛋白相互作用的相关性发现了以细胞因子信号通路相关的蛋白互作为核心的网络,为理解细胞因子对其它生物学途径的调控提供了方向。另外用高重要性相互作用构建的子网络包含了关键蛋白质行使功能时的互作信息,为优选关键相互作用提供了新的工具。最后本文利用该方法发现了差异表达基因与高频突变基因之间的关联。本研究通过以上的实验表明复杂网络和数据挖掘技术的协同应用可以为生物学数据的分析提供新的切入点。两个方法都是以相互作用为基础,在模型构建时同时利用组学数据进行训练,因而可以将两种数据有机的结合在一起。对癌症相关基因/蛋白的分析表明这种结合对分析生物学数据是有帮助的。