论文部分内容阅读
目的:通过比较三种基于骨骼肌损伤修复相关的35个基因相对表达量建立损伤时间推断的机器学习预测模型准确性和泛化性,选出基于多维核酸指标进行骨骼肌损伤时间推断的最佳数学模型,为机器学习算法建立数学模型用于推断损伤时间在法医学实践应用提供新的思路和方向。方法:65只Sprague-Dewley雄性成年大鼠,随机分为对照组和损伤组(4h、8h、12h、16h、20h、24h、28h、32h、36h、40h、44h和48h,每组5只大鼠)建立大鼠骨骼肌挫伤动物模型。利用RT-qPCR检测骨骼肌组织35个与损伤修复相关基因的相对表达量,得到建模数据集。通过Python(3,7版本)语言采用无监督层次聚类算法对归一化处理后的训练数据集进行相关性分析后,通过线性判别分析对数据降维确定六种类别标签。而后,应用递归特征消除算法分别联合逻辑斯蒂回归模型、随机森林模型和多项式朴素贝叶斯模型建立三种有监督数学模型,通过内部留一法验证上述三种机器学习方法测试损伤时间推断模型的准确性。另外增加13只大鼠在相同损伤时间点上建立骨骼肌挫伤动物模型(随机分为对照组与损伤组,每组1只大鼠),采用同样的方法检测35个基因指标的相对表达量,得到测试数据集。将数据带入已建立的数学模型,通过计算受试者工作特征曲线ROC(Receiver Operating Characteristic,ROC)和曲线下面积AUCs(Areas under the ROC Curves,AUCs)检测模型的泛化能力。结果:实验选取的35个损伤修复相关基因在损伤后不同时间的相对表达量有显著差异,可以作为推断损伤时间的指标。聚类分析和相关性分析表明各指标之间的关联性和与损伤时间良好的相关性。LDA算法将预设的13个时间点分为6个时间组(0h-8h、8h-16h、16h-24h、24h-32h、32h-40h和40h-48h),作为机器学习模型分类算法的类别标签。我们建立的三种数学模型通过优化及递归特征消除法(Recursive Feature Elimination,RFE)进行特征筛选后得出:逻辑斯蒂回归模型(Logistic Regression,LR)选取了25个特征基因,其验证准确率为100%,预测准确率为92%,AUCs0.99,F1分数为0.92;随机森林模型(Ramdon Forest,RF)选取了35个特征基因,其验证准确率为85%,预测准确率为77%,AUCs为0.92,F1分数为0.84;多项式朴素贝叶斯(Multinomial Naive Bayesian,Multinomial NB)选取了26个特征基因,验证准确率为62%,预测准确率为54%,AUCs为0.87,F1分数为0.36。结论:本研究应用35个基因在损伤后不同时间的表达差异,结合数学模型和机器学习算法,建立了三种数学模型。通过特征筛选和比较优化我们发现,较单一指标,联合多指标推断损伤时间更加准确和完善,并且机器学习数学模型提高了损伤时间推断的准确性和客观性。在三种有监督模型中,逻辑斯蒂回归模型具有更高的准确性,对未知样本有更准确的预测能力,并且具有更简单的基因特征。基于损伤后相关基因的时序性变化,此模型更适用于早期损伤时间的推断。应用机器学习算法建立数学模型为多指标多维度数据分析提供了便利,同时为法医学损伤时间推断提供了新的研究思路及方法。