论文部分内容阅读
随着乳腺癌的发病率逐渐升高,对乳腺癌患者进行精准预后预测是当前癌症研究所面临的关键问题,其中生存期预测又是乳腺癌预后预测的重要研究内容之一。准确地预测乳腺癌患者的生存期对于患者的心理康复,指导临床医生制定合适的治疗方案都有重要意义。近年来,随着测序技术和病理图像技术的发展,积累了大量的组学和病理图像多模态数据。在乳腺癌生存期预测研究中引入上述多模态数据,能够极大地提升乳腺癌的生存期预测性能。因此,如何有效地融合上述多模态数据,以更好地帮助预测乳腺癌生存期,是目前癌症生存期预测研究领域中亟需解决的问题。针对上述问题,本文提出了基于多模态数据融合的乳腺癌生存期预测研究。本文主要完成以下几个方面的工作:(1)充分调研国内外乳腺癌生存期预测研究的现状,了解乳腺癌多模态相关数据库情况。根据调研结果,从TCGA数据库中提取和构建人类乳腺癌生存期预测的多模态数据集,包括多种模态数据信息如基因表达、拷贝数变异、DNA甲基化、蛋白质表达和病理图像等。(2)为了探索融合不同组学以及病理图像数据在乳腺癌生存期预测中的有效性,本文在研究中利用多核学习算法融合了乳腺癌的基因表达、拷贝数变异、DNA甲基化、蛋白质表达以及病理图像多个模态数据,显著地提升了乳腺癌生存期预测性能。此外通过分析不同模态数据对于乳腺癌生存期预测性能的影响,进一步表明多种组学以及病理图像数据均能够有效地提升乳腺癌的生存期预测性能。(3)考虑到不同模态数据的差异性,提出了一种融合组学数据的深度神经网络生存期预测方法 MDNNMD(Multimodal Deep Neural Network by Integrating Multi-dimensional Data)。作为深度学习多数据融合技术在乳腺癌多组学数据上的初步尝试,该方法针对每个模态数据分别设计不同的深度神经网络模型,然后将多个独立的模型进行后端融合,从而提升乳腺癌生存期预测性能。通过对结果的系统分析表明,MDNNMD能够准确预测出乳腺癌患者的生存期。(4)在上述研究的基础上,进一步提出融合组学与病理图像数据的混合深度神经网络生存期预测方法 MHDNNGP(Multimodal Hybrid Deep Neural Network by Integrating Genomic Data and Pathological Images)。该方法采用一种新颖的DNN-CNN混合神经网络结构,针对组学和病理图像数据分别构建深度神经网络和卷积神经网络并将其融合。该方法不仅充分挖掘了组学和病理图像数据中丰富的生存期相关特征,而且同时考虑了两者分别隐含的固有特征。通过在测试集上的性能评估,表明MHDNNGP对于乳腺癌生存期预测更为有效。