论文部分内容阅读
疾病诊断是医学领域的重要课题。各种医疗机构积累了越来越多的就诊样本数据,人工对样本进行疾病分类预测的结果限于经验、决策能力等主观因素的影响难以避免地出现误差,其分类精度和效率有很大提升空间。中医疾病预测理论强调健康与内外环境密切关联,基于概率统计学的贝叶斯分类器的类属性联合概率很难被准确估计,基于单机内存的分类算法也无法在期望时间内处理大规模样本集。理想的分类模型能充分表达样本特征和疾病类别间的关联,提高分类效果和可扩展性。钊对以上不足,本文主要做了以下几点改进。首先,从局部学习的角度提出了一种基于余弦相似度进行实例加权改进的朴素贝叶斯分类算法(IWIMNB)。算法在训练样本集的局部构建高质量分类器,利用局部的训练样本弱化属性条件独立性假设,使用余弦相似度度量验证与训练样本的距离,并作为权值对修正的朴素贝叶斯模型进行参数训练,对比实验的结果表明IWIMNB算法可操作性强并具有更好的分类效果。其次,从结构扩展的角度考虑将关联规则应用到加权平均的1-依赖贝叶斯模型(AR-WAODE),从而考虑非公共父结点属性间依赖关系与不同AODE对分类的贡献。为了提高生成关联规则的效率,提出了一种基于矩阵剪枝的分布式频繁项集挖掘算法(DFIMA),目的是减少Apriori算法产生的无用候选项集及文件系统I/O负载,利用2-候选项集矩阵对生成(k+1)-频繁项集的计算过程进行剪枝,之后基于内存迭代计算框架Spark实现改进算法,对比实验的结果表明DFIMA能减少迭代过程中产生的无用候选项集,在加速比和可扩展性上表现良好。然后,基于Hadoop框架实现AR-WAODE分类算法(Hadoop-AR-WAODE),从而提高模型参数的训练速度。算法主要分为预处理作业、分类器的训练作业和预测作业。对比实验的结果表明,Hadoop-AR-WAODE通过考虑非公共父结点属性间依赖关系以及不同AODE对分类结果的贡献不同提高了分类模型的预测效果,在处理大规模样本集时分类效率得到有效改进。最后,将Hadoop-AR-WAODE算法应用到疾病分类预测实际问题中,以对原始样本集的初步数据分析结论为指导,设计并实现一个疾病分类模型。模型以经络值、面象舌象脉象测量值、气象数据为输入,以疾病类别为输出。对比实验的结果表明受限于疾病预测理论的不成熟,疾病分类模型的分类效果有限,但模型具有较好的处理效率与可扩展性,在疾病预测领域具有一定的参考价值。