论文部分内容阅读
目的:转移性黑色素瘤患者预后差,本研究引用人工智能算法,通过建立预测模型对转移性黑色素瘤和原发性黑色素瘤进行分类识别,构建了黑色素瘤分类识别的新模型,这将有利于改善黑色素瘤患者的预后,并为临床治疗方案的选择提供便利条件。方法:1.收集并整理TCPA蛋白质组学数据库的354例黑色素瘤患者的反相蛋白阵列表达谱数据,剔除有缺失值的蛋白质特征。采用T-SNE和PCA方法对蛋白质特征进行降维和可视化,利用Embeded嵌入法进行特征筛选,筛选出对模型最优意义的蛋白质特征生物标记物。将筛选好的特征子集导入python编程软件,利用Scikit-learn包进行人工智能算法分类模型构建。2.采用6种人工智能算法,将每位黑色素瘤患者作为一个样本量,其相应的蛋白质特征作为该样本量的属性值,在python软件中使用train_test_split分割法并设定随机数种子将354例的前80%作为训练集输入6种人工智能算法程序中进行黑箱操作,算法通过对数据进行学习并生成了机器学习模型,将后20%的样本作为测试集,以验证该模型的准确度和泛化能力,最终构建了基于人工智能算法的转移性黑色素瘤和原发性黑色素瘤分类识别模型。3.基于相同数据集对6种人工智能算法可调整的超参数进行优化和调整,寻找在不同人工智能算法下该数据集所构成预测模型的最优解。并利用SMOTE样本不平衡处理法或算法自带的调整样本不平衡参数对数据样本标签不平衡进行了处理,对经过样本不平衡处理后的数据重新构建模型,并优化模型参数,寻找经过样本不平衡处理后不同算法的最优解。结果:1.T-SNE及PCA分析结果显示,354例黑色素瘤反相蛋白阵列表达谱的数据不完全呈线性分布,基于线性拟合的模型不能达到较高的准确率。2.基于Embeded嵌入法从213个蛋白质特征种筛选出了16个对模型最有意义的蛋白质特征生物标记物,分别是X4EBP1_p T37T46,CKIT,CAVEOLIN1,ECADHERIN,EIF4E,FIBRONECTIN,PR,YAP,EIF4G,NRAS,NDRG1_p T346,RAB25,EPPK1,ANNEXIN1,MSH6,BRAF_p S445。3.Logistic回归算法中,数据在样本不平衡处理前在测试集上的准确率最高值达到85.92%,敏感度为100%,特异度为50%,AUC值=0.947,经过SMOTE样本不平衡处理后,准确率最高值为88.73%,敏感度为94.11%,特异度为75%,AUC值=0.944。决策树算法中,数据在样本不平衡处理前在测试集上的准确率最高值达到84.50%,敏感度为98.04%,特异度为50%,AUC值=0.870,经过SMOTE样本不平衡处理后,准确率最高值为84.50%,敏感度为94.12%,特异度为60%,AUC值=0.767。随机森林算法中,数据在样本不平衡处理前在测试集上的准确率最高值达到85.92%,敏感度为100%,特异度为50%,AUC值=0.923,经过SMOTE样本不平衡处理后,准确率最高值为83.10%,敏感度为100%,特异度为40%,AUC值=0.862。在线性核函数支持向量机中,数据在样本不平衡处理前在测试集上的准确率最高值达到80.28%,敏感度为100%,特异度为30%,AUC值=0.943,经过SMOTE样本不平衡处理后,准确率最高值为91.55%,敏感度为100%,特异度为70%,AUC值=0.943。在多项式核函数支持向量机中,数据在样本不平衡处理前在测试集上的准确率最高值达到90.14%,敏感度为100%,特异度为65%,AUC值=0.878,经过SMOTE样本不平衡处理后,准确率最高值为91.55%,敏感度为96.07%,特异度为80%,AUC值=0.918。双曲正切核函数支持向量机中,数据在样本不平衡处理前在测试集上的准确率最高值达到84.51%,敏感度为100%,特异度为45%,AUC值=0.903,经过SMOTE样本不平衡处理后,准确率最高值为88.73%,敏感度为96.07%,特异度为70%,AUC值=0.933。高斯径向基核函数支持向量机中,数据在样本不平衡处理前在测试集上的准确率最高值达到88.73%,敏感度为100%,特异度为60%,AUC值=0.860,经过SMOTE样本不平衡处理后,准确率最高值为92.96%,敏感度为100.00%,特异度为75%,AUC值=0.907。朴素贝叶斯算法中,数据在样本不平衡处理前在测试集上的准确率为85.92%,敏感度为98.04%,特异度为55%,AUC值=0.922,经过SMOTE样本不平衡处理后,准确率最高值为87.32%,敏感度为96.08%,特异度为65%,AUC值=0.921。极限梯度提升算法中,数据在样本不平衡处理前在测试集上的准确率最高值达到84.51%,敏感度为100%,特异度为45%,AUC值=0.933,经过SMOTE样本不平衡处理后,准确率最高值为88.70%,敏感度为98.04%,特异度为60%,AUC值=0.910。结论:将人工智能算法应用于黑色素瘤的分类识别中,能较好的区分转移性黑色素瘤和原发性黑色素瘤。