论文部分内容阅读
随着医疗保险的发展,医保欺诈问题不断涌现,每年都有大量医保资金被骗取。医保业务过程中积累了大量的医保相关数据,数据包含了病人自身的信息、去医院就诊的信息以及参保缴费等信息,从中检测出可能存在欺诈的异常数据是治理医保欺诈现象的重要手段。现有的医保欺诈检测方法一般先通过先验知识确定欺诈相关的模式和指标,然后基于这些固定的模式和指标用离群点检测挖掘异常。但是,欺诈模式隐蔽且多变,这种依赖先验知识的方法往往滞后于欺诈模式的发展,无法及时发现新的欺诈模式下的欺诈记录。同时,医疗保险数据本身是经年累月积累而来的,具有时序特性,主要体现在时效方面,不同年月的气候环境、医疗保险政策、医疗水平乃至经济发展的差异都对医疗保险数据存在影响,比如有的疾病治疗手段突破带来的各种指标突变,或是有的疾病的发病率在不同季节有周期性渐变,因此不同时间段的数据之间缺乏可比性,但很多研究并没有关注这种特性。所以,仅仅从固定模式挖掘异常的传统方法和其他忽略了时序特性的方法难以满足现在的需求。针对上述问题,本文主要做出了以下贡献:1.提出了一个基于动态异构信息网络(HIN)的医疗保险欺诈检测模型。利用HIN丰富的表达能力,将医保领域涉及到的实体及实体之间的复杂的关系建模,建立医保业务表征模型。基于医保业务表征模型,用无监督的方式挖掘医保领域中所有可能的业务模式、相互关联的业务组合模式及相关的指标。按照数据发生的时刻构建动态HIN,从横向和纵向两个角度进行异常检测。其中,横向检测时处于同一时间段,找出外部环境相同时与其他记录相比存在异常的数据;纵向检测跨越多个时间段,找出和自身相比随时间推移存在较大变化的数据。2.提出了基于疾病演化规律的欺诈检测优化方法。基于动态HIN的医疗保险欺诈检测模型在纵向检测时没有考虑到疾病的某些数据随时间推移存在正常变化的情况,通过学习疾病演化规律进行优化。提出了相应的疾病演化规律模型,首先利用图卷积神经网络处理单个时刻的数据,嵌入网络中的邻居信息,加入注意力机制,对不同邻居节点加权。然后,构建自编码器对时序数据降维,再进行聚类操作。最后提出衡量各簇符合正常演化概率的指标,从正常演化的簇中学习疾病演化规律,纵向检测调整为自身变化不符合正常演化规律的数据。本文在真实的数据集上对以上模型进行了实验来评估效果,实验证明,本文提出的模型都具有良好的效果。通过上述研究,能够缩小具有欺诈嫌疑的医疗保险记录的范围,提高检测的效率,及时找到一些新的欺诈模式,减少相应的欺诈损失。