论文部分内容阅读
背景:乳腺癌是全球女性最常见、致死率最高的癌症类型。安全、有效地实施精准肿瘤诊疗是改善乳腺癌治疗效果、提高患者生存期的关键策略。临床上,肿瘤精准诊疗的实施依赖于高灵敏、高准确性生物标志物的有效应用。外泌体可参与细胞间信息传递及肿瘤浸润、增殖和转移等调控过程,并具有标本易得、内含物稳定、动态监测和实时评估肿瘤状态的特点,是“液体活检”的新手段和肿瘤标志物的良好新来源。筛选和鉴定外泌体生物标志物对乳腺癌精准诊疗具有重要的临床价值和广泛的应用前景。尽管目前已有不少基于实验生物学、生物信息学方法的外泌体分子机理与临床应用相关研究,但这些研究信息分散、结果零散,研究之间也缺乏有效关联与信息连接,加之这些研究其系统性视野和视角的不足,因此,直到目前,我们对外泌体在癌症中的功能作用与分子机制仍然缺乏较明晰的系统性认识和知识梳理,这极大地阻碍了外泌体在临床诊疗和预后评估方面的理论深入与应用开发。为此,本研究通过乳腺癌外泌体现有文献数据和组学数据(转录组)的有效挖掘与稳健分析,结合多重证据信息确证,对具有生物学研究价值和临床应用开发意义的乳腺癌外泌体分子进行筛选与鉴定。同时,为形成乳腺癌外泌体理论知识(如分子功能机制、基因-疾病关系等)与临床诊疗应用之间的有效关联,本研究还将文献、组学数据的分析挖掘结果与分子注释信息进行深度整合,并通过数据系统与用户界面的精心开发,从而构建具有良好信息查询功能、多重知识连接与确证信息关联的综合性乳腺癌外泌体知识库。方法:(1)基于实验生物学研究文献的乳腺癌外泌体分子挖掘与文本信息提取:通过关键词搜索策略与语义文本人工分析,对乳腺癌外泌体实验生物学文献进行了多轮、并行人工审查与挖掘以获取乳腺癌外泌体相关的生物学意义分子(Biologically Interesting Molecules,BIMs)和潜在生物标志物(Potential Biomarkers,PBs)及其详尽文本信息;(2)基于高通量表达数据、大样本验证数据及生物学研究文献的BIMs&PBs稳健筛选:采用多个有效工具(如OmicsDI等)对多个基因表达公共数据库(如NCBI-GEO等)进行充分检索和筛选,获得可用的乳腺癌外泌体高通量数据集。采用Limma、NetworkAnalyst、CytoHubba等工具进行基因差异表达、功能富集及生物网络(包括ceRNA)构建等分析,结合TCGA大样本转录组数据和文献数据进行BIMs和PBs的鉴定与验证;(3)基于多重证据信息,探究具有理论研究与应用开发优先价值的BIMs&PBs:基于功能术语富集、Circos预后标志物关系作图、多分子癌症通路映射、miRNA-mRNA靶向网络构建、预后生存分析等过程,深入洞察BIMs和PBs分子功能及与其他分子的作用关系。同时,结合相关文献,对这些分子逐一人工查证,鉴定其中具有理论研究与应用开发价值的BIMs和PBs;(4)基于开源技术的乳腺癌外泌体综合信息整合与知识库构建:基于LAMP(Linux+Apache2+MySQL+PHP7)环境,结合国际顶级开源内容管理框架Drupal、Feeds Importer数据导入技术及Views数据整合与呈现技术,将人工语义挖掘信息、转录组数据稳健分析结果与外源数据注释信息进行深度、有效的整合,构建可用于乳腺癌外泌体分子机理探索与标志物筛选鉴定的综合性知识库。结果:(1)乳腺癌外泌体文献挖掘、文本提取及高通量数据集分析筛选结果:通过有效的检索、严谨的筛选以及深入的人工语义分析与挖掘,本研究共获得了950篇乳腺癌外泌体相关研究文献和90个外泌体分子(包括37个PBs和53个BIMs)。通过对现有、可用的4个乳腺癌外泌体高通量数据集(样本n=42)的充分筛选与TCGA大样本数据验证(样本n=1191)及多角度鉴定,共获得220个外泌体分子(包括47个PBs和173个BIMs)。综合两方面的挖掘与筛选结果,本研究最终获得三种分子类型(包括121个mRNAs、172个miRNAs和13个lncRNAs),共计306个。而且,有关这些分子的基因名、功能描述、实验样本、实验设计、实验验证方法、癌症分期分型等十余种信息文本也得以充分提取。(2)乳腺癌外泌体BIMs与PBs多重验证性分析结果:结合多重分析与多重验证方式,本研究对获得的306个外泌体分子进行了深度探究和洞察,共鉴定出36个具有理论研究与应用开发优先价值的乳腺癌外泌体分子(包括19个Promising PBs和17个Promising BIMs)。其中,胰岛素样生长因子1受体(Insulin-like Growth Factor 1 Receptor,IGF1R)和成纤维细胞生长因子受体底物2(Fibroblast Growth factor Receptor Substrate 2,FRS2)是最值得关注、最具价值的乳腺癌诊断或预后标志物。(3)乳腺癌外泌体综合信息整合与知识库构建结果:通过对文献挖掘结果、组学数据表达分析结果及29种数据源信息的有效整合,最终形成了具有多重分子注释信息的乳腺癌外泌体综合知识库ExoBCD(https://exobcd.liumwei.org)。该知识库提供了分子特征、实验描述、生物标志物证据和临床应用等4大类信息,其中包括基因表达模式、分子功能、肿瘤分期分型与生存分析等15小类注释信息,共计20,900余条数据记录。结论:(1)本研究结合文献文本挖掘与高通量数据分析手段,基于稳健筛选与多重信息验证策略,实现了乳腺癌外泌体高通量表达数据、实验生物学研究文献的深度挖掘、分析与鉴定,并最终筛选出306个具有重要理论探究价值和临床应用研究价值的乳腺癌外泌体分子(包括96个PBs和210个BIMs)。其中,36个外泌体分子(包括19个Promising PBs和17个Promising BIMs)在进一步的多重确证分析中,展现出前景可期的生物学探索价值与临床应用研究价值。特别是IGF1R和FRS2,可能是两个极具临床应用开发价值的诊断或预后生物标志物。(2)本研究基于系统生物学观点,对现有乳腺癌外泌体相关研究、组学数据及其他注释信息库进行了充分地挖掘、分析和整合,形成了用户界面良好、信息连接完整、具有高质量注释信息及多重证据支持的乳腺癌外泌体综合性知识库ExoBCD。(3)本研究采用多工具、多角度、多信息验证策略,实现了乳腺癌外泌体生物标志物的稳健分析与筛选,获得了文献、数据相互驱动的流程策略和工具体系,为后续研究、其他癌症探索及相关生物标志物的筛选与鉴定提供了参考范式。总之,本研究从系统和整体的视角出发,基于生物学文献与组学数据,全面、深入地整合了现有乳腺癌外泌体的相关知识,为乳腺癌外泌体分子机制探索、生物标志物发现以及临床应用研究提供了强有力的综合性知识与数据信息支持,也为相关癌症、相关研究提供了可移植的研究策略和体系范式。