基于决策树集成的医疗保险分类挖掘的研究和实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:litian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在医疗保险相关项目中利用分类挖掘算法,实现了对医疗保险费用分析的决策支持应用,本文在项目应用的基础上主要讨论了以下一些问题: (1)分析了目前某市医疗保险制度运行中出现的问题,提出项目开发的起因。明确项目的目的是找出影响医疗保险费用上涨的原因; (2)项目的基础是某市已有的医疗保险管理信息系统中的大量数据,这些数据具有一定的可靠性和真实性,文章尝试利用数据挖掘技术来解决医保运行时出现的问题; (3)分析了项目的特点,确定了利用分类算法作为数据挖掘的算法; (4)对分类算法进行基于应用的改造,一方面引入了先验知识的权值参数,另一方面引入了经过改造的分类器集成方法; (5)利用数据仓库的概念,对医疗保险信息系统中的数据进行抽取、清洗、转换和加载; (6)利用REW(Random Ensemble based on Weight)算法以及经过预处理的模型数据来进行数据挖掘任务,得到了一些比较实用的有启发意义的规则,为某市医保中心完善医保制度提供辅助的决策支持。 本文的主要特色如下: (1)结合先验知识的决策树集成和改进的决策树个体生成算法 本文的思路集中在找到一种将决策树集成和人的经验相结合的方法,并应用到医疗保险的项目中来。基于此,本文在现有决策树集成算法上进行改进,同时充分利用领域内的先验知识,提出了一种新的决策树集成的算法REW。大体的思想是:文章改进现有的决策树个体生成算法,让每个决策树单体对特定的分类类别有所偏向。同时文章对属性也进行基于先验知识的加权,使之对属性的选择再一次倾向于较为重要的属性,最后综合所有决策树的结果,利用一定的合成算法得到最终的分类结果。 (2)基于医疗保险背景的数据挖掘应用 文章利用数据挖掘中的分类分析方法,建立了个人参保客户的分类模型和单位参保客户的分类模型。本文采用决策树集成的数据挖掘方法来对某市医疗保险管理系统中的参保客户数据进行分析。 本项目的数据挖掘系统已经大体完成功能的实现,目前运行状况良好,基本达到了项目设计的要求,取得了初步的应用成效。
其他文献
集成学习利用多个学习器来解决问题,可以有效提高学习系统的泛化能力。由于其具有优越的性能和广泛的适用性,近年来已成为国际机器学习界的一个研究热点。本文针对集成学习进行
XML作为一种可扩展的标记语言,现已成为数据描述和交换的标准,在开发标记语言、WEB和文档发布、电子商务、网络办公、数据集成等方面得到广泛应用,产生了大量的XML文档。对这些X
随着互联网技术的飞速发展,网络的结构变得越来越复杂,网络安全也变得日益重要和复杂。一个健全的网络信息系统安全方案应该包括安全效用检验、安全审计、安全防护技术、安全教
与软件开发的需求分析类似,信息安全产品或系统特别需要进行安全需求的定义。安全需求是进行安全产品的设计、开发和评估等过程的重要依据。通用评估标准CC中的保护轮廓就是为
结构化的对等计算技术是重要P2P网络技术之一,它采用DHT进行资源搜索与定位,具有查找可确定性、简单性和分布性等优点,但在考虑“网络资源局部自治性、异构多样性、资源不断
如何生成高质量的测试用例一直是软件测试领域的重要研究课题。不同于其他测试用例生成技术,基于符号执行的测试用例自动生成技术在程序执行的过程中使用符号化的变量代替具
  本文提出了层次式交换网络(HSNET)的思想,在网络拓扑结构、地址空间中引入层次结构的概念,即网络的拓扑结构按层次结构构造,网络的地址空间也按层次结构分配,并且拓扑结构的
随着Peer-to-peer技术的发展成熟,Internet上的P2P流量比例不断攀升,其对网络的影响也日渐加剧。DHT技术作为P2P技术的研究热点也开始被广泛应用于各种新型业务中,而大量新型
字符自动编针是电脑刺绣系统中一个重要的功能,日常使用非常频繁。TrueType类型的字体是计算机中使用最为广泛的字体类型,因而采用TrueType字体轮廓作为刺绣的轮廓成为字符自动
集群作为一种廉价的高性能计算平台,受到了人们的日益青睐,获得了越来越广泛地应用。集群环境中存在大量的可加以利用的计算资源,如何科学有效地对这些资源加以利用,以充分发挥集