论文部分内容阅读
数据挖掘技术在商业方面应用较早,目前已经成为电子商务中的关键技术。由于数据挖掘在开发信息资源方面的优越性,数据挖掘已逐步推广到保险、医疗、制造业和电信等各个行业。国家军字一号医院信息系统在近7年时间里,已在军队、武警、地方的近500所医院推广使用。随着时间的推移,医院的业务数据正通过不同的途径源源不断的汇入服务器数据库中,其数据量以每日成百上千万条记录的速度快速增长。如何有效地利用这些海量的医疗信息,让“信息”变成“知识”,较好的办法是借助数据挖掘技术对医疗数据进行分析。本文选取了新桥医院最近三年内的冠心病病人的基本信息和费用信息进行数据挖掘,以建立医疗费用的分类模型。由于各种原因,数据中存在各种程度的缺失。为了提高数据挖掘的效率和精确度,需要采取数据填补技术对缺失数据进行填补。本文在介绍现有的缺失值处理技术和对比各种算法的优劣的基础上,通过实验证实了多重填补法有较好的填补性能,故采用多重填补法对缺失数据进行填补。本文介绍了多种数据挖掘算法。因为决策树是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,在对比适用性以后,决定采用决策树算法作为核心的数据挖掘算法进行医疗数据挖掘。在决策树的生成过程中,测试属性的选择对决策树的优劣起着重要的作用。在测试属性的选择方面,本文首先分析了利用条件属性对样本集进行划分,得到正确划分的赞同度。利用赞同度可以找到对正确决策贡献最大的属性。以该度量为启发式信息,提出了一种基于赞同度的决策树生成算法。赞同度决策树采用阈值预剪枝作为剪枝方法。当叶子结点的样本数量达不到某个设定阈值时,对该叶子结点所在的最小子树进行剪枝,保留该叶子结点的父结点为新的叶子结点。阈值预剪枝虽然可能得不到样本量较小的事例规则,但采用阈值预剪枝不必生成整棵决策树,且算法相对简单,效率很高。对比CHAID,CART和QUEST算法生成的决策树,利用赞同度算法得到的决策树规模适中,分类精度和预测精度有了一定的提高。