基于决策树的肝病诊断技术研究

来源 :江苏大学 | 被引量 : 3次 | 上传用户:instant
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肝病是指发生在肝脏的病变,是一种常见的危害性极大的疾病。一直以来肝病的诊断方法都受到学者们的广泛关注,随着大数据技的发展,数据挖掘技术在医疗诊断领域中的应用不断增多,基于数据挖掘技术的肝病诊断系统研究也成为了近年来热门的研究课题之一。本文以构建肝病诊断模型为目标,探讨在构建过程中遇到的数据不平衡问题,“维数灾难”问题和模型建模方法选择。首先,在解决数据不平衡问题时针对Borderline-SMOTE算法的缺陷提出一种新的算法BN-SMOTE;然后,在解决维数灾难问题时针对单准则过滤式特征算法无法全面评价特征子集优劣的问题提出一种新的多准则融合的特征选择算法MFMSC;最后,基于决策树算法建立肝病诊断模型。具体工作如下:(1)针对经典的Borderline-SMOTE算法在生成新样本时,会漏选处于决策边界的重要少数类样本点导致模型分类准确率下降的问题,提出一种新的算法BN-SMOTE。该算法首先在多数类样本集中计算少数类样本集的最近邻,得到一个处于决策边界的新多数类样本集,然后在少数类样本集中取该新多数类样本集的最近邻,找到处于决策边界的少数类样本集,解决了Borderline-SMOTE算法漏选边界区域少数类样本点的问题。3组公共数据集的实验中,BN-SMOTE算法在C4.5决策树下的G-mean和F-value值与Borderline-SMOTE算法相比分别平均提高了3.84%和4.26%,与最新的RBO、CN-SMOTE算法相比在处理不平衡数据时同样更有优势。(2)针对传统的过滤式特征选择算法评价准则单一,无法全面评价特征子集优劣而降低模型的分类精度这一缺陷,提出一种新的特征选择算法MFMSC。该算法融合互信息、卡方检验和Relief-F三种评价方法评选最优特征子集,首先考虑用于融合的特征子集多样性度量越大,融合效果越好的特点计算三类评价准则的权重,之后对三组特征权重向量进行加权融合得到新的特征权重,以确定多准则融合后的最优特征子集。4组公共数据集的实验表明,在C4.5决策树分类器下MFMSC算法较互信息方法准确率提高了2.66%,较卡方检验方法准确率提高了1.78%,较Relief-F方法准确率提高了1.24%,有效地提升了分类模型的分类精度。同时与最新UFSACO和FSCBAS算法相比,MFMSC算法在不同特征的数据集实验中具有更高的分类精度,具备一定的先进性。(3)为了降低肝病诊断模型将重症患者误诊为轻症患者的概率,在C4.5决策树的基础上,提出基于决策风险代价矩阵的决策树算法DRM-C4.5算法。该算法的基本思想是:提出误判代价和决策风险代价矩阵的概念,并在增益率的计算过程中加入误分类代价量,作为新的属性划分依据。该算法创新之处在于划分最优属性时考虑了误判代价,达到降低重症患者误诊概率的目的。以无锡市第五人民医院提供的真实数据进行实验,实验结果表明基于DRM-C4.5决策树的肝病诊断模型在保证模型整体分类准确率高情况下,重症患者的误判概率大幅降低,满足了肝病诊断模型的特殊要求。
其他文献
工程竣工环节中的结算工作对整个工程造价有着非常大的影响,它不仅是为工程整体质量提供了有利的保障,同时工程竣工结算也是发包方与承包方双方利益博弈的重要环节,如果不能
近年来,盘锦高新技术产业开发区党工委坚持以强化园区党建为引领,以构建“亲”“清”新型政商关系为主线,创新领导体制、扩大“两个覆盖”、促进作用发挥、落实工作保障,有力地推
报纸
会计是随着社会生产的发展和经济管理的要求而生、发展并不断地完善起来的,经济的发展决定了会计的进步。现代会计,不但要反映和影响经济活动中人与物之间的关系,而且大量反
因其文学成就和对视觉艺术的娴熟运用,自1933年以来,亨利·詹姆斯的小说被大量改编成影视作品,且其中不乏优秀之作。本文以三部改编自亨利·詹姆斯同名小说的电影为
20世纪中后期国际跨海社会经济交往密度增加,尤其是以发达国家为代表的人们对于规模经济和生活质量的追求,导致海岸带和近海资源环境承载的压力骤然增加。而海洋空间资源的公
<正>银行和企业需要深刻理解和管控保函风险,才能在利用好保函优势的同时,稳健推动业务发展。银行保函是现代商业中平衡效率和风险的重要金融工具,广泛应用于贸易、投资、融
当前各行各业随着全球化的不断深入而得到持续发展,其中建筑行业的发展最为显著。由于各方面原因,我国在建筑行业与发达国家仍有较大差距,就土木工程施工过程中的钢结构技术
目的探讨使用螺旋CT在脑血管动脉期和静脉期扫描与图像融合技术在颅内静脉畸形(intracranial venous malformation,IVM)中的诊断价值。方法采用8排螺旋CT进行头部螺旋容积扫描,层
把握“内陆开放”历史机遇的贵州,正立足西南,联通四海,拥抱世界。12月6日,以“开放的中国:多彩贵州·风行天下”为主题的外交部贵州全球推介活动在京举行。外交部部长王毅在
推广Fibonacci数列是指a0,a1不为零的实数,an=an-1+an-2,n≥2.本文探讨推广Fibonacci数的性质以及sum from n=0 to ∞ (ankxn)(k=1,2,3)的级数和.