论文部分内容阅读
医疗健康一直是人们关注的话题,尤其是母婴健康,它极大地关系到一个家庭幸福与否,妊娠期肝内胆汁淤积症((intrahepatic cholestasis of pregnancy,简称ICP)是一种妊娠期严重危害母婴健康的并发症,其发病概率最高可以达到12%,目前其发病机制尚未被完全知晓且诊断指标单一,对ICP的及时诊断产生了很大的挑战。随着机器学习技术在医疗领域的迅速发展,研究者可以通过机器学习从数据中挖掘信息并设计诊断模型。本研究以妊娠期肝内胆汁淤积症为主要研究对象,探讨ICP的诊断及结局预测模型。首先采用新提出的SC-ReliefF算法进行特征选择;然后利用改进的狼群算法对传统BP神经网络训练算法BP算法进行改进;最后设计了基于BP-NN的妊娠期肝内胆汁淤积症的诊断及结局预测模型。具体工作如下:(1)针对原始ICP数据的高冗余和非平衡性,提出一种新的特征选择算法SC-ReliefF并将其应用到ICP数据的特征选择中。SC-ReliefF算法在ReliefF的基础上,一方面根据类内平均距离提出了新的样本选择方法,能很好地适应ICP数据非平衡性的特点;另一方面为了减少冗余特征,SC-ReliefF算法引入余弦相似度,结合权重提出新的特征冗余度计算公式,提出一种去冗余方法,能够得到更小的特征子集。在无锡市妇幼保健院提供的临床数据实验表明,SC-ReliefF算法与ReliefF、mRMR和RS-ReliefF相比得到的ICP特征子集规模较小,且在SVM和BP-NN上具有较好的分类效果,能够提升学习的效率。(2)针对BP神经网络在建模时容易陷入局部最小值的缺点,提出新的神经网络训练算法SGWO-BP。该算法将狼群算法(GWO)引入到BP神经网络初始值的赋值当中,利用GWO算法的全局寻优能力,将BP神经网络的初始权重和阈值尽可能设置到最优值附近。同时在引入过程中对狼群算法进行了适应性改进:一方面,调整了探狼寻优时的位置更新公式,加入了游走因子,减少了探狼在寻优过程中过早陷入局部最优位置;另一方面,针对人工狼奔袭以及围攻过程中步长始终不变而导致算法后期收敛缓慢的问题,调整了人工狼奔袭和围攻时的位置更新公式,使得奔袭和围攻步长可以随着算法迭代次数动态调整,使寻优结果更加准确。最后通过实验对比SGWO-BP算法与GA-BP、PSO-BP和SVM在五种常见UCI数据集上的表现,说明了SGWO-BP在收敛速度有略微提高的情况下,可以获得较高的准确度。(3)针对在ICP的诊断中,将患者诊断为健康人和将健康人诊断为患者的误诊断代价不同问题,对神经网络的损失函数进行改进,提出一种新的交叉熵损失函数。新的损失函数将误判因子引入交叉熵损失函数,使BP-NN的训练过程具有代价敏感性,降低患者被误诊为正常人的概率。