论文部分内容阅读
肾癌约占恶性肿瘤的2%~3%,全球年度新发肾癌患者人数达二十万,死亡人数超过十万。手术切除术能够良好地治愈早期未出现转移的肾癌患者,然而对于晚期肾癌患者,术后出现复发和转移的患者约占20~30%。因此肾癌的早期发现至关重要,然而事实上,由于肾癌起病隐匿,约1/3患者就诊前已出现确切转移迹象。 本文以早期未转移ccRCC和晚期ccRCC原发癌组织样本作对比,基于TCGA数据库中illumina GA平台miRNA-seq数据,通过DEseq差异分析算法鉴别出15个在两类样本中显著差异表达的miRNA,其中包括在转移癌组织中9个显著上调的miRNA和6个显著下调的miRNA。进一步的,考虑到癌细胞基因组的不稳定性以及个体差异性,本文结合miRNA分子和临床指标作为候选转移相关标志物。为了寻找在不同样本子集中鲁棒性良好的转移相关标志物,基于集成和算法嫁接的思想,设计了随机试验,分别随机抽取样本子集和候选标志物子集重新组合,在组合的新数据集上训练分类器模型,以SVM-RBF模型的分类效果来评估候选标志物在不同样本子集中的分类鲁棒性。在随机试验中,样本的有放回抽取保证了两类样本比例的相对均衡,同时,多次反复抽取又最大限度利用了所有样本的信息。最终集成和汇总20万个SVM_RBF模型的表现,可以认为候选转移相关标志物在区分转移肾癌和未转移肾癌上表现出了较强的鲁棒性,同时为了直观表明随机试验是如何辅助临床判断病人是否转移,文中举例应用基于bagging结合SVM-RBF模型的集成分类器能够达到100%的转移案例命中率和91.2%的准确率。进一步的,在结合临床属性的情况下,TPR(敏感度)平均提升10.2%。 如何量化评估候选标志物与肾癌转移的相关性?它们在模型中是否表现出不同程度的分类性能?为了评估miRNA分子和临床指标与肾癌转移的相关性大小,本文借鉴人工智能领域的特征选择算法,通过SBS方式生成特征子集并采用wrapper方法对候选标志物进行特征重要性排序。在Wrapper方法中,选用了八种机器学习算法分别评估特征子集的分类准确率,八种算法分别是基于径向基核函数的支持向量机(SVM_RBF),神经网络(NNet),平均化的神经网络(AvgNNet),线性支持向量机(SVM),广义线性函数之逻辑回归(GLM),K近邻(KNN),随机森林(RF),贝叶斯(NB)。八种算法分别给出了特征重要性排序结果,大部分算法一致将hsa-mir-139,hsa-mir-144,hsa-mir-486,hsa-mir-451,hsa-mir-155,hsa-mir-1293,hsa-mir-1269,hsa-mir-1305和tumor necrosis(肿瘤坏死)作为前9个最重要的标志物。说明这8个miRNA表达水平和肿瘤坏死率与肾癌转移高度相关,本文进一步探究这些潜在转移相关分子marker在normal~stageⅠ~stageⅡ~stageⅢ~stageⅣ几种癌症进展阶段中的变化趋势,结果对肾癌转移的临床预测和治疗有重要供临床参考。