论文部分内容阅读
肝病是指发生在肝脏的病变,是一种常见的危害性极大的疾病。一直以来肝病的诊断方法都受到学者们的广泛关注,随着大数据技的发展,数据挖掘技术在医疗诊断领域中的应用不断增多,基于数据挖掘技术的肝病诊断系统研究也成为了近年来热门的研究课题之一。本文以构建肝病诊断模型为目标,探讨在构建过程中遇到的数据不平衡问题,“维数灾难”问题和模型建模方法选择。首先,在解决数据不平衡问题时针对Borderline-SMOTE算法的缺陷提出一种新的算法BN-SMOTE;然后,在解决维数灾难问题时针对单准则过滤式特征算法无法全面评价特征子集优劣的问题提出一种新的多准则融合的特征选择算法MFMSC;最后,基于决策树算法建立肝病诊断模型。具体工作如下:(1)针对经典的Borderline-SMOTE算法在生成新样本时,会漏选处于决策边界的重要少数类样本点导致模型分类准确率下降的问题,提出一种新的算法BN-SMOTE。该算法首先在多数类样本集中计算少数类样本集的最近邻,得到一个处于决策边界的新多数类样本集,然后在少数类样本集中取该新多数类样本集的最近邻,找到处于决策边界的少数类样本集,解决了Borderline-SMOTE算法漏选边界区域少数类样本点的问题。3组公共数据集的实验中,BN-SMOTE算法在C4.5决策树下的G-mean和F-value值与Borderline-SMOTE算法相比分别平均提高了3.84%和4.26%,与最新的RBO、CN-SMOTE算法相比在处理不平衡数据时同样更有优势。(2)针对传统的过滤式特征选择算法评价准则单一,无法全面评价特征子集优劣而降低模型的分类精度这一缺陷,提出一种新的特征选择算法MFMSC。该算法融合互信息、卡方检验和Relief-F三种评价方法评选最优特征子集,首先考虑用于融合的特征子集多样性度量越大,融合效果越好的特点计算三类评价准则的权重,之后对三组特征权重向量进行加权融合得到新的特征权重,以确定多准则融合后的最优特征子集。4组公共数据集的实验表明,在C4.5决策树分类器下MFMSC算法较互信息方法准确率提高了2.66%,较卡方检验方法准确率提高了1.78%,较Relief-F方法准确率提高了1.24%,有效地提升了分类模型的分类精度。同时与最新UFSACO和FSCBAS算法相比,MFMSC算法在不同特征的数据集实验中具有更高的分类精度,具备一定的先进性。(3)为了降低肝病诊断模型将重症患者误诊为轻症患者的概率,在C4.5决策树的基础上,提出基于决策风险代价矩阵的决策树算法DRM-C4.5算法。该算法的基本思想是:提出误判代价和决策风险代价矩阵的概念,并在增益率的计算过程中加入误分类代价量,作为新的属性划分依据。该算法创新之处在于划分最优属性时考虑了误判代价,达到降低重症患者误诊概率的目的。以无锡市第五人民医院提供的真实数据进行实验,实验结果表明基于DRM-C4.5决策树的肝病诊断模型在保证模型整体分类准确率高情况下,重症患者的误判概率大幅降低,满足了肝病诊断模型的特殊要求。