论文部分内容阅读
分析医保联机结算系统中的数据,采用数据采集,数据清洗以及数据的消减等方法,完成对系统数据的处理,为数据挖掘的决策树的实现提供重要数据。
【关键词】数据挖掘;决策树;数据清洗
1 数据采集
在数据挖掘过程中,数据的采集是重要的一部分,也是数据挖掘的第一环节。数据挖掘中,数据的采集应该包括了结构化和半结构化数据。结构化的数据可以由SQL Server提供的数据导入功能来完成,主要是医保门诊业务数据,这些数据保存在联机结算的数据库中,可以直接导入。半结构化的数据主要是门诊辅助信息,如科室、病种、患者类别、支付方式等,这些信息将将被综合采集到挖掘库中,用于后序对整体数据的挖掘。
2 数据清洗
建立决策树时考虑到科室、职工类别、病种、性别、年龄、地区、门诊支付金额、统筹支付金额、自付费用总额等属性对其总体的影响,提取门诊就诊信息表中部分数据如表1所示。
分析数据库时发现:表1中的数据划分较细,不方便直接分类,因此首先进行数据的清理工作。
2.1 一般综合性医院,按照功能科室进行分类。
具体分类方法为:内科:A;外科:B;儿科:C;妇科:D;骨科:E;耳鼻科:F;泌尿科:G;肿瘤科:H;血液科:I;神经科等。
2.2 病种类型根据医疗保险病种目录,以字母数字表示。
如表2所示:
Update test set user_ bingzhong =’A001’ where user_bingzhong=’ 急性阑尾炎’
Update test set user_ bingzhong =’A002’ where user_ bingzhong =’ 内痔手术治疗’
…….
Update test set user_ bingzhong =’J001’ where user_ bingzhong =’ 创伤性脑出血’
Update test set user_ bingzhong =’J002’ where user_ bingzhong =’ 颅骨肿瘤’
(1)病人年龄:根据医保患者个人在职退休标志,将数据清洗,如
Update test set user_flag =’在职’ where user_flag=’0’
Update test set user_flag =’退休’ where user_flag =’1’
(2)病人性别
病人的性别为男,女,如:
Update test set user_sex=’男’
Update test set user_sex=’女’
2.3 把数据库中不合格的数据,如因录入错误而造成的空记录、多余的空格、错误的内容等去除掉。至此,数据清理的工作完成。
3 数据消减
数据消减的目的是缩小所挖掘数据的规模,但不会影响到最终的挖掘结果。在这里,采用消减维数的方法,从初始的特征属性中找出真正有用的特征属性,在进行数据挖掘时减少要考虑的特征属性或变量个数。由于联机结算表中的属性字段很多,为了便于决策树模型的建立,选择了其中与门诊就诊属性相关较大的科室(A、B、C、D、E、F、G、H、I、J)、病种(A001、A002…J001,J002…)、医保病人性别(男、女)、医保病人年龄(在职和退休)、医保职工类别(事业、企业、灵活就业)医院级别,生成用于对病人医保负担度是否高进行分类的基本数据表。表2为医保病人门诊就诊情况表。下边将以此表为基础进行决策树的建立。并对结果进行患者个人负担情况以及医保基金使用情况的分析,从而帮助决策者针对不同的情況对医保政策及时调整,以保证参保人员能够更好的享受医保优惠政策。
作者简介
韩莉(1977-),女,安徽省阜阳市人。大学本科学历。现为石家庄信息工程职业学院讲师。研究方向为计算机信息开发。
贺宏(1979-), 女,河北省新乐市人。大学本科学历。现为石家庄信息工程职业学院副教授。研究方向为信息系统开发。
张亚娜(1979-),女,河北省石家庄市人。大学本科学历。现为石家庄信息工程职业学院副教授。研究方向为信息系统开发。
曹鑫(1981-),女,河北省张家口市人。大学本科学历。现为石家庄信息工程职业学院讲师。研究方向为信息系统开发。
作者单位
石家庄信息工程职业学院 河北省石家庄市 050000
【关键词】数据挖掘;决策树;数据清洗
1 数据采集
在数据挖掘过程中,数据的采集是重要的一部分,也是数据挖掘的第一环节。数据挖掘中,数据的采集应该包括了结构化和半结构化数据。结构化的数据可以由SQL Server提供的数据导入功能来完成,主要是医保门诊业务数据,这些数据保存在联机结算的数据库中,可以直接导入。半结构化的数据主要是门诊辅助信息,如科室、病种、患者类别、支付方式等,这些信息将将被综合采集到挖掘库中,用于后序对整体数据的挖掘。
2 数据清洗
建立决策树时考虑到科室、职工类别、病种、性别、年龄、地区、门诊支付金额、统筹支付金额、自付费用总额等属性对其总体的影响,提取门诊就诊信息表中部分数据如表1所示。
分析数据库时发现:表1中的数据划分较细,不方便直接分类,因此首先进行数据的清理工作。
2.1 一般综合性医院,按照功能科室进行分类。
具体分类方法为:内科:A;外科:B;儿科:C;妇科:D;骨科:E;耳鼻科:F;泌尿科:G;肿瘤科:H;血液科:I;神经科等。
2.2 病种类型根据医疗保险病种目录,以字母数字表示。
如表2所示:
Update test set user_ bingzhong =’A001’ where user_bingzhong=’ 急性阑尾炎’
Update test set user_ bingzhong =’A002’ where user_ bingzhong =’ 内痔手术治疗’
…….
Update test set user_ bingzhong =’J001’ where user_ bingzhong =’ 创伤性脑出血’
Update test set user_ bingzhong =’J002’ where user_ bingzhong =’ 颅骨肿瘤’
(1)病人年龄:根据医保患者个人在职退休标志,将数据清洗,如
Update test set user_flag =’在职’ where user_flag=’0’
Update test set user_flag =’退休’ where user_flag =’1’
(2)病人性别
病人的性别为男,女,如:
Update test set user_sex=’男’
Update test set user_sex=’女’
2.3 把数据库中不合格的数据,如因录入错误而造成的空记录、多余的空格、错误的内容等去除掉。至此,数据清理的工作完成。
3 数据消减
数据消减的目的是缩小所挖掘数据的规模,但不会影响到最终的挖掘结果。在这里,采用消减维数的方法,从初始的特征属性中找出真正有用的特征属性,在进行数据挖掘时减少要考虑的特征属性或变量个数。由于联机结算表中的属性字段很多,为了便于决策树模型的建立,选择了其中与门诊就诊属性相关较大的科室(A、B、C、D、E、F、G、H、I、J)、病种(A001、A002…J001,J002…)、医保病人性别(男、女)、医保病人年龄(在职和退休)、医保职工类别(事业、企业、灵活就业)医院级别,生成用于对病人医保负担度是否高进行分类的基本数据表。表2为医保病人门诊就诊情况表。下边将以此表为基础进行决策树的建立。并对结果进行患者个人负担情况以及医保基金使用情况的分析,从而帮助决策者针对不同的情況对医保政策及时调整,以保证参保人员能够更好的享受医保优惠政策。
作者简介
韩莉(1977-),女,安徽省阜阳市人。大学本科学历。现为石家庄信息工程职业学院讲师。研究方向为计算机信息开发。
贺宏(1979-), 女,河北省新乐市人。大学本科学历。现为石家庄信息工程职业学院副教授。研究方向为信息系统开发。
张亚娜(1979-),女,河北省石家庄市人。大学本科学历。现为石家庄信息工程职业学院副教授。研究方向为信息系统开发。
曹鑫(1981-),女,河北省张家口市人。大学本科学历。现为石家庄信息工程职业学院讲师。研究方向为信息系统开发。
作者单位
石家庄信息工程职业学院 河北省石家庄市 050000