论文部分内容阅读
在医疗数据中挖掘有价值信息是一个亟待解决的问题。随着医疗领域文本数据的累积,其中蕴含价值不可估量,对知识发现工具需求日益强烈。此外,就患者而言,有远程自助导诊的需求。为解决以上问题,本文将Bayes分类技术应用于医疗导诊中,并针对医疗文本特征提出优化模型。本文提出基于Jelinek-Mercer (JM)的双层Bayes分类模型。医疗文本具有类别区分不明显、缺乏大规模训练集、某些低频词具有高判别性、多层级等特征,JM双层模型利用JM平滑技术解决训练集不完备的问题,并针对文本多层级特征,构建双层模型,提高分类精度。基于JM双层模型的理论分析,本文完成实验平台搭建,用JAVA语言实现了伯努利和多项式两种Bayes分类器,并分别完成双层模型构建,最后在双层模型基础上引入JM平滑模块。实验结果表明,双层伯努利和多项式模型的分类准确率分别为0.894和0.903,较单层模型分别提高7.84%和6.61%。在双层模型基础上引入JM平滑模块后,精度有进一步提升,伯努利和多项式准确率分别为0.905和0.912。实验中精度最高的是基于JM的双层多项式Bayes模型。最后,将分类精度达0.912的分类器应用于导诊系统中,完成导诊应用系统的设计和实现。患者可以通过远程输入主诉症状,进行自助导诊。利用JM双层多项式Bayes分类器进行疾病类别判定,完成改进的贝叶斯分类模型在医疗导诊领域的应用研究。