论文部分内容阅读
目前,使用传统的方法对疾病进行诊断时,诊断精确度从因人而异,并且受主观因素的影响较大。为了提高整体医疗水平,机器学习已经被引入到医疗诊断。机器学习在医疗领域的应用具有巨大的潜力,能够帮助医生和研究人员从数据集中发现规律,从而提高医疗诊断的效率和提高医疗服务质量。目前机器学习在医疗诊断领域发展迅速,提高了医疗工作人员的诊断效率,一定程度上改善了整体的医疗诊断水平。论文主要研究了单一疾病和多种疾病的智能诊断方法。当数据的正样本属性和负样本属性特征相似时,大多数机器学习算法通常无法在诊断单一疾病时正确分类数据。本文提出了一种基于置信区间的神经网络算法,可以很好地克服上述缺点。首先,所提出的算法对训练样本进行归一化操作,其次是用主成分分析(PCA)来减小维数以获得最优特征,然后使用反向传播(BP)来训练特征以获得诊断模型。在利用诊断模型对预测样本进行预测前,我们首先获得训练样本输出值分布的置信区间,然后根据预测值所属的置信区间确定最终预测结果。我们用基于加州大学欧文分校(UCI)数据库中的疾病数据集的算法进行单一疾病的智能诊断,并与其他经典的机器学习算法进行比较,如决策树,支持向量机,随机森林,K最近邻等。结果表明,该算法的预测精度明显优于其他现有算法。在多疾病诊断中,存在大量可以使用却没有得到有效整理的医疗诊断数据,如各大医疗网站的疾病信息数据,以及各个医院的诊断案例数据。在不侵犯隐私的前提下,可以通过利用知识图谱,对这些数据的分析,来达到进行疾病的智能诊断分析。本文基于知识图谱,对可以搜寻到的医疗数据进行整合。通过对朴素贝叶斯算法进行属性特征加权改进,提出了属性对类别的区分程度的量化方法,并将其应用在朴素贝叶斯的条件概率估计中。通过对用户输入的症状,进行疾病分析,并给出相应的可能的疾病概率。最后,本文在自行抓取并构建的数据集上对上述方法进行了验证,并给出了系统的实现过程。在以后的工作中,将重点提高单一诊断疾病算法的稳定性,在改进的朴素贝叶斯算法上,优化属性症状和疾病类别的关系权值,进一步提高诊断准确率。