论文部分内容阅读
伴随国家与社会对于医疗保险的重视程度越来越高,医保报销补偿费在医院收入以及群众看病费用当中所占据的比例也逐渐提升。于是,为有效适应医保快速发展,研究界开始对合理的医保报销费用制定方法予以关注。在传统方式之下,医保报销费决策主要是采取人工方式完成,按照人的经验制定报表来分析各月医保情况,这种人工方式在灵活性与及时性上都比较差,并且由于人工方式的客观原因,效率也非常低下。鉴于此,本文应用数据挖掘理论构建了医保报销费用决策模型,通过数据挖掘算法对医保数据去噪,并对医保报销费用进行预测,相比传统的医保报销费用决策方法,本模型在灵活性、及时性、效率上都得到了提高。本文具体工作包括:1)离群点检测分析:海量的动态数据中难免会有异常(坏)数据,如果这些异常的数据没有被检测出来而被加入计算模型,会大大增加分类结果的误差。本文分析了传统的离群点检测算法在医保大数据环境下存在的缺陷,并结合聚类算法,通过先聚类再检测的方法对医保数据进行离群点检测。实验证明在医保大数据环境下,集成的异常点检测方法相比单一的算法,能够提高正确率,降低误报率。为提高后续决策模型的准确度,本文对多种集成的离群点检测算法进行了对比测试,最终选择了正确率最高的由canopy-kmeans算法和KNN算法集成的方法来为后续模型进行数据去噪。2)决策模型的研究:为改善人工统计这种低效的医保决策方式,本文分析了医保报销费用决策需求,基于决策树算法建立了医保报销费用决策模型,采用关联规则算法进行了属性选取优化,在决策树的剪枝过程中,将事前剪枝方法和事后剪枝方法结合后,并使用正确性、稳定性、复杂性三重标准对剪枝过程进行了进一步的优化。实验证明,本模型有良好的预测正确率和执行效率。3)医保报销费用决策系统的设计和实现:本文在Hadoop平台架构基础上,设计和实现一个医保报销费用决策系统,完成对医保数据的去噪处理,并对医保报销费用进行预测,同时可以可视化展示分析的结果。