论文部分内容阅读
目的
k最近邻节点算法(k-nearest neighbor algorithm, kNN)可以将复杂的医疗信息集合成临床诊断信息(比如确定良性或恶性病变)。该研究旨在分析kNN算法应用于大量临床数据集时的AUC(ROC曲线下面积)。
材料与方法该研究经IRB批准,且实验选取了543例经病理证实为乳腺病灶的MR图像进行分析,所有的病灶由两名经验丰富的放射科医师用现有的描述方法进行前瞻性评估。kNN算法应用于诊断恶性与良性病变的步骤如下:首先,用递归特征消除来确定单个特征描述的重要性,将其按照重要性排列。然后,采取多类别描述方法的策略,将对照组分为4组:top-3、top-7、top-12和top-18组,相应的特征描述作为kNN算法的输入向量。最后,用kNN算法对四组数据处理,对结果进行量化,比较各组数据的AUC(为了尽量消除数据模型和测试数据的偏差,运用了4倍交叉验证)。病理组织学显示,实验数据组共有196个良性病变和347个恶性病变。
结果测得最高的AUC为0.940 (用top-18描述)。如果用top-12来描述,AUC降为0.928 (P=0.23)。减少特征描述输入向量的维数会显著降低(P<0.05) kNN算法的AUC ("top-7":AUC=0.895;"top-3":AUC=0.816)。
结论kNN对预测恶性肿瘤的精确度较高(AUC为0.940),由于这种描述方法对n≥12是有效的,说明kNN算法对多维数据的评估更加有效。