论文部分内容阅读
随着信息化的不断发展以及人们对健康的日益重视,健康体检数据库中积累了大量宝贵的数据,但是还没有得到充分利用。如何充分利用已有的体检数据更好的辅助医生及管理人员为客户提供更好的医疗检查就是本文的研究重点。首先,由于历史数据逐年增多,慈铭健康体检集团规模不断扩大,原有的数据库系统已经无法负荷急剧增长的数据量,也无法从整个企业的角度进行统计分析,构建数据仓库是必经之路。因此,本文结合公司的实际情况,给出了一个分布式数据仓库的模型,描述了其体系结构设计、逻辑模型设计及数据更新方法,并进行了相应的数据分析。其次,针对如何合理制定体检项目组合的问题,本文研究了水平加权关联规则。其中权值的设计借鉴了传统IR领域的TF*IDF的权值定义思想,给出了科室的权值定义公式。通过结合权值归一化思想,使加权支持度不大于1,更易于理解。最后通过比较加权关联规则算法与传统非加权关联规则算法在本文中的应用效果,证明了加权关联规则在本文中的适用性,完成了制定体检项目组合的任务。最后,为了辅助客服医生针对每个客户特点为其推荐合适的体检项目组合,本文研究了基于粗糙集的关联规则挖掘方法,并着重研究了其中的求核算法。由于本文中预处理后的决策表存在大量的不相容记录,并且这些不相容记录属于客观事实,无法进行简单删除,原有的求核算法不再适用。针对这个问题,本文给出了纵向加权求核方法:根据数据的不相容程度,对记录进行纵向加权,删除权值低于给定权值的记录,并再次根据记录的权值计算核属性的权值,最后根据核属性权值决定保留的核属性。实验表明,该方法具有很好的灵活性,通过医生的配合,实现了项目的需求。本文结合北京慈铭健康体检集团的实际数据库,运用上述数据挖掘方法进行相应需求的数据挖掘,并得到了挖掘结果,达到了辅助决策的目的。