一种基于深度神经网络模型及蛋白相互作用预测癌症相关蛋白及蛋白组合的新方法

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:ligc66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从大量数据中挖掘出有意义的信息,如何把复杂的研究对象用精确而简明的模型描述出来一直是数据处理工作中的中心课题。针对这个问题有两种截然不同的方法:数据挖掘和复杂网络理论。复杂网络和数据挖掘方法不仅有着相似的研究目的,而且其分析对象在多数情况下也相同。但在实验数据分析中将两者协同应用解决同一问题的情况比较少,主要原因是两者在分析对象上有较多重叠,在多数情况下仅用一种方式就可以解决问题。但实际上,将数据挖掘和复杂网络很好的结合起来解决问题会给数据分析提供新的思路。本研究将复杂网络和数据挖掘相结合,同时用于分析癌症相关基因/蛋白,结果表明复杂网络和数据挖掘技术的协同应用可以为生物学数据的分析提供新的切入点。对癌症的研究积累了大量而且类型丰富的数据,利用这些数据发现癌细胞中关键的基因及其作用途径一直是重要的研究方向。得益于丰富的数据,癌症领域的数据分析方法也层出不穷,其中结合蛋白质相互作用网络分析基因及蛋白功能的方法是一个重要的类别。在癌症相关的信号传导,细胞定位和表达调控等过程中蛋白质相互作用扮演重要的角色,因此以蛋白质相互作用为基础整合其它组学数据的生物信息方法对分析参与这些过程的关键基因及蛋白至为重要。本研究不仅以人类蛋白质相互作用网络为基础,结合基因表达、基因重要性及基因突变数据优选并分析了癌症相关基因/蛋白和蛋白组合,还利用新的模型将生物网络与组学数据有效的结合起来,为后续分析提供帮助。本文的工作主要包含以下两个方面:(1)结合蛋白质相互作用网络和蛋白质、基因的表达数据预测新的癌症相关基因和蛋白质组合。蛋白质相互作用网络是典型的复杂网络,网络中每条边表示一对蛋白质的相互作用关系。表达数据包含基因或蛋白质在癌症组织、癌症细胞系和正常组织的样本中的表达量的信息,比较两类样本可以得到与癌症关联密切的基因或蛋白质。本研究将蛋白质相互作用网络用于构建稀疏的自动编码机,而后用癌症细胞系和正常组织的差异表达数据作为训练数据,训练后的自动编码机同时包含相互作用信息和差异表达信息。将训练得到的自动编码机用于构建一个深层模型,来模拟每个蛋白质/基因敲降对其它蛋白质/基因表达的影响,最后将这种影响关系表示为有向网络的形式。蛋白间相互影响的有向网络可以用于鉴定新的癌症相关蛋白。在本研究优选的TOP 500个高可信度的癌症相关蛋白中有211个为已知的癌症药物靶点,其余蛋白质的功能与癌症也密切相关。与其它方法相比较该方法有较高的AUC值(>0.8)。蛋白间相互影响的网络也可以用于预测蛋白组合。本文中提到的蛋白组合可以是合成致死组合,也可以是药物靶标的组合。这两类蛋白组合在蛋白相互影响网络中都与特定的蛋白存在密切联系。本研究利用已知的蛋白组合将这组蛋白质识别出来,并用于识别新的蛋白组合。交叉验证表明该策略有较高的准确度(>0.85),可以用于鉴别新的蛋白组合。进一步将该模型用于前列腺癌的单细胞测序数据集,单细胞测序可以检测病患体内癌细胞群体的演化,对临床治疗有重要意义。文中利用前列腺癌的数据集训练模型且计算了相应的蛋白影响网络,然后利用该网络识别了前列腺癌蛋白,其中包含已知的前列腺癌基因。这表明该模型适用于单细胞测序数据和小样本数据,具有良好的应用前景。(2)结合蛋白质相互作用网络和基因重要性数据寻找复杂的基因关联关系。在本研究中蛋白质相互作用网络依然表示两个蛋白质间的相互作用关系。基因重要性数据是通过CRISPR(Clustered regularly interspaced short palindromic repeats)试验方法随机突变细胞系基因组得到,简单来讲基因重要程度越高,可以承受的突变越少。通过比较初始CRISPR随机突变的细胞系和经过一段时间的培养的细胞系间基因组的差异可以得到基因重要性数据。本研究将基因的重要性数据通过新方法转换为蛋白质相互作用的重要性。相互作用的重要性可以用于筛选重要的互作,计算相互作用间的相关性以及重新评估基因的重要性。本研究利用蛋白相互作用的相关性发现了以细胞因子信号通路相关的蛋白互作为核心的网络,为理解细胞因子对其它生物学途径的调控提供了方向。另外用高重要性相互作用构建的子网络包含了关键蛋白质行使功能时的互作信息,为优选关键相互作用提供了新的工具。最后本文利用该方法发现了差异表达基因与高频突变基因之间的关联。本研究通过以上的实验表明复杂网络和数据挖掘技术的协同应用可以为生物学数据的分析提供新的切入点。两个方法都是以相互作用为基础,在模型构建时同时利用组学数据进行训练,因而可以将两种数据有机的结合在一起。对癌症相关基因/蛋白的分析表明这种结合对分析生物学数据是有帮助的。
其他文献
随着科学技术的发展,人们的生活被种类多样、形态各异的数据信息所包围,海量的数据信息以图形的形式展现出来供人类识别与交互,从而发现数据中隐藏的特征、关系和模式。但是,
<正>2018年10月12日至15日,受香港中乐团行政总监钱敏华女士的邀请,新绛县县长解芳带领绛州鼓乐艺术团职教中心鼓乐队赴香港参加了第16届活力鼓令24式擂台赛。他们演奏的经典
智能制造系统包含了数据采集技术、系统开发技术等的设计和实现。以数据采集流程、数据库设计、系统总体设计等为主要内容。对生产设计中各种流程方案进行智能化操控。笔者对
<正>大理市坚持科学规划,以发展促保护、以保护求发展,大力加强历史文化名城保护、开发与管理,历史文化内涵更加丰富,历史文化风貌日益凸现。一、保护规划定位在进行新一轮城
“独在异乡为异客,每逢佳节信思亲。遥知兄弟登高处,遍插茱萸少一人。”这是唐代诗人王维的诗(仇月九日忆山东兄弟》。这首脍炙人口的七绝仅有28个字,却为我们传递了唐代三项民俗
我们的日常生活与化学息息相关,化学是一门古老而又生机勃勃的科学,感知着我们的物质世界,为我们的生活带来方便与健康。本文将化学同生活中几种常见现象相结合,更好地认识生
研究区的断裂系统非常复杂,主要表现在断层密集、延伸短、断距小、搭接关系复杂多样,应用常规地震解释方法无法有效刻画,断层平面组合难度极大。为此,集成了构造导向滤波、层
7月1日,经合组织发布报告《2019年农业政策监测与评估》,为所有经合组织国家、欧盟以及主要新兴经济体提供了政府对农业支持的最新估计,这些新兴经济体包括巴西、中国、哥伦比亚
报纸
防霾口罩的微型风扇驱动系统为优化使用功能,采用STC12C5A60S2单片机作为控制器,由温度、湿度和声音传感器对周围环境进行采样。单片机对采样信号进行软件滤波等信号处理后,
近年来,在鞋材网版印刷应用中,出现涤纶网版印刷立体图案的流行趋势。而实践中,网印工作者经常发现印刷图文出现水印以及迁色现象,特别是在深色的涤纶丝网上体现得更加明显。