论文部分内容阅读
我国医疗信息化发展的现状仍与国际水平有很大的差距,医学术语标准化与应用现状、医院采购于不同厂商的HIS系统之间的信息孤岛、大量有价值却结构不统一的历史数据无法得到有效利用等一些问题阻碍着我国医疗信息化的发展。随着信息化水平的提高及医疗历史数据的堆积对于医院领导决策的要求越来越高,从海量的数据中找出有价值的疾病诊断和预防规律也越来越难。随着数据分析挖掘以及可视化技术的日趋成熟,在各个领域都开始得到了广泛的应用,而在医疗数据挖掘领域方面的应用研究还非常少。 本文的工作主要围绕将医院现有的结构化与非结构化数据进入数据仓库之后如何使用数据分析挖掘及可视化技术展开,将数据挖掘与可视化技术应用于医疗信息化当中。运用J2EE技术、Mysql数据库、先进的可视化技术D3并充分利用成熟的Pentaho BI系统和成熟的数据挖掘工具Weka、采用B/S结构的方式开发基于weka的可视化医疗数据挖掘平台,为医疗数据分析挖掘工作的开展提供技术支撑,降低医疗数据分析挖掘过程中研究人员必须要具备的计算机技术与数据挖掘理论要求。 本文设计平台的创新点在于充分利用数据挖掘开源软件weka的基础上,扩展了其预处理过滤器,使weka更加适用于医疗数据挖掘,在数据源和数据挖掘结果在web端的可视化方面做了有益的尝试,实现了J48分类预测模型在web端的可视化,且实现了不同类型数据格式向ARFF格式的转换。另外设计了基于webservice的weka与Pentaho BI软件集成中间件,实现了Pentaho BI与weka的两个异构系统的松耦合集成,与开源Pentaho BI对weka的黑盒软件复用方式相比更加深入。 最后,从性能、挖掘算法正确性、可视化的交互性等方面对平台进行了测试,测试结果表明本平台提供的挖掘算法比较准确,由于网络传输带来的开销,性能较开源桌面版weka稍差,但可视化交互性更好。另外系统在辅助探索十五种血液病与血常规检查结果之间的关系方面得到了应用,得到的挖掘结果表明血液病种与首诊血常规之间存在一定的关系。