基于集成SVM算法鉴别肾透明细胞癌转移相关miRNA标志物

来源 :南京大学 | 被引量 : 0次 | 上传用户:information1005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肾癌约占恶性肿瘤的2%~3%,全球年度新发肾癌患者人数达二十万,死亡人数超过十万。手术切除术能够良好地治愈早期未出现转移的肾癌患者,然而对于晚期肾癌患者,术后出现复发和转移的患者约占20~30%。因此肾癌的早期发现至关重要,然而事实上,由于肾癌起病隐匿,约1/3患者就诊前已出现确切转移迹象。  本文以早期未转移ccRCC和晚期ccRCC原发癌组织样本作对比,基于TCGA数据库中illumina GA平台miRNA-seq数据,通过DEseq差异分析算法鉴别出15个在两类样本中显著差异表达的miRNA,其中包括在转移癌组织中9个显著上调的miRNA和6个显著下调的miRNA。进一步的,考虑到癌细胞基因组的不稳定性以及个体差异性,本文结合miRNA分子和临床指标作为候选转移相关标志物。为了寻找在不同样本子集中鲁棒性良好的转移相关标志物,基于集成和算法嫁接的思想,设计了随机试验,分别随机抽取样本子集和候选标志物子集重新组合,在组合的新数据集上训练分类器模型,以SVM-RBF模型的分类效果来评估候选标志物在不同样本子集中的分类鲁棒性。在随机试验中,样本的有放回抽取保证了两类样本比例的相对均衡,同时,多次反复抽取又最大限度利用了所有样本的信息。最终集成和汇总20万个SVM_RBF模型的表现,可以认为候选转移相关标志物在区分转移肾癌和未转移肾癌上表现出了较强的鲁棒性,同时为了直观表明随机试验是如何辅助临床判断病人是否转移,文中举例应用基于bagging结合SVM-RBF模型的集成分类器能够达到100%的转移案例命中率和91.2%的准确率。进一步的,在结合临床属性的情况下,TPR(敏感度)平均提升10.2%。  如何量化评估候选标志物与肾癌转移的相关性?它们在模型中是否表现出不同程度的分类性能?为了评估miRNA分子和临床指标与肾癌转移的相关性大小,本文借鉴人工智能领域的特征选择算法,通过SBS方式生成特征子集并采用wrapper方法对候选标志物进行特征重要性排序。在Wrapper方法中,选用了八种机器学习算法分别评估特征子集的分类准确率,八种算法分别是基于径向基核函数的支持向量机(SVM_RBF),神经网络(NNet),平均化的神经网络(AvgNNet),线性支持向量机(SVM),广义线性函数之逻辑回归(GLM),K近邻(KNN),随机森林(RF),贝叶斯(NB)。八种算法分别给出了特征重要性排序结果,大部分算法一致将hsa-mir-139,hsa-mir-144,hsa-mir-486,hsa-mir-451,hsa-mir-155,hsa-mir-1293,hsa-mir-1269,hsa-mir-1305和tumor necrosis(肿瘤坏死)作为前9个最重要的标志物。说明这8个miRNA表达水平和肿瘤坏死率与肾癌转移高度相关,本文进一步探究这些潜在转移相关分子marker在normal~stageⅠ~stageⅡ~stageⅢ~stageⅣ几种癌症进展阶段中的变化趋势,结果对肾癌转移的临床预测和治疗有重要供临床参考。
其他文献
CP A是从常见中药中分离得到的环肽类化合物,前期研究发现该化合物具有一定的体内抗肿瘤活性,但免疫调节活性未见报道。在本文的第一章第一节,我们研究了CP A对三硝基苯磺酸导致
该文以语音识别系统中语言模型和语义分析这两项技术为主线,以统计理论为依据,对特定领域的语音识别系统中的语言模型和语义分析进行了研究.首先,以开发一个自动电话语音转接
本文首先介绍了经典的时域有限差分(FDTD)基本方程,然后详细讨论了降维时域有限差分(R-FDTD)方法的基本原理和计算中的有关问题,并将之应用于微带缝隙天线的分析研究。讨论了R-
该硕士学位论文通过单元电路的设计,研究了纳米MOSFET在模拟和数字两类集成电路中可能的应用.使用沟道长度100nm以下的MOSFET设计并模拟了集成运算放大器和反相器.在设计集成
该文的研究内容是国家电子工业发展基金项目——"基于蓝牙技术的移动网络终端"的一个子项目.该文在对蓝牙技术的系统、协议栈、应用模型规范、HCI(主机控制接口)等核心技术进
该文主要研究光纤光栅的动态应变传感特性,旨在通过对动态应变的测量实现水下声压信号的探测.光纤光栅水下声压传感器可用来收集舰艇、潜艇和水下导弹发射产生的声信号,用于
城市化作为全球变化的重要方面,是土地利用与土地覆盖变化的重要驱动力,对生态系统的组成、结构和功能都产生了巨大的影响。城市增长及土地利用变化是一个动态的时空过程,是社会
锁相环(PLL, Phase Locked Loop)电路广泛用于无线通信芯片和时钟恢复芯片中,由于传统的PLL电路由全定制(模拟/射频电路)而成,电路的性能受PVT(工艺,电源电压,温度)的影响比
该文介绍了IP接入网的定义、远程访问控制的原理以及在Linux内核中基于Netfilter构架的包过滤技术.采用以上关键技术,我成功的搭建了一个可以按照时间长度、IP数据流量等多种
本文研究的主要内容是图形的反走样算法及其硬件模型研究。本文从理论分析了图形、图像走样的原因,对反走样算法进行了研究和比较,提出了一种基于边缘提取和模板匹配的图形反走