论文部分内容阅读
目前医疗保险行业存在大量的医保记录数据,为了更好的保障医疗保险基金合法使用,需要优化对欺诈骗保的审查手段,加大对医保基金的监管力度。本文基于大规模的医保数据,研究改进聚类及分类算法,将聚类及分类算法应用于医保数据集,设计并实现医保智能审核模型。本文主要研究内容如下:1.为了更有效地利用医保无标签数据,本文首先采用聚类算法对无标签医保数据进行聚类分析。由于传统K-Means存在容易陷入局部最优的问题,本文提出了改进的蚁狮优化与K-Means相结合的聚类模型ALO-KM。该模型首先通过蚁狮优化算法帮助K-Means选择初始簇中心,在迭代过程中再利用蚁狮优化算法更新样本簇的簇中心,削弱了K-Means对初始簇中心的敏感程度。然后提出了基于高斯分布的改进随机游走策略,能够更加全面地搜索解空间,实现对蚁狮优化算法搜索能力的提高。实验证明本文提出的模型在多个指标上都提高了医保无标签样本的划分纯度和聚类效果,有效地解决了医保无标签数据利用率低以及K-Means易陷入局部最优的问题。2.为了更有效地同时利用医保数据中的无标签样本和有标签样本,提高对骗保行为的分辨能力,本文设计了K-Means与逻辑回归相结合的KM-LR模型。首先提出K-Means迭代训练中特征距离向量的概念,在K-Means训练后将特征距离向量映射为逻辑回归模型的回归系数;然后通过逻辑回归训练后学习到的模型对样本进行划分,并分别求得划分后两类的簇中心,再进行下一次整体的迭代。这种交互式的训练模式紧密地连接了聚类与分类两个部分,有效地提高了医保数据的利用率。通过实验证明了KM-LR算法有效地优化了对医保数据的分辨能力,在多种评价指标上均较大地提升了分类精度,达到了同时利用医保无标签样本与有标签样本的目的。3.为了给医保智能化审核与信息化监管提供现代技术支撑,本文构建了基于大数据的医保智能审核系统。该系统可以利用医保数据进行多种模型训练,包括本文提出的ALO-KM与KM-LR,可以由用户上传需要审核的数据样本进行医保防骗审核,可以通过不同的统计图表进行对比分析,最后提供了可视化界面为用户展示各个功能模块的结果。