基于Weka的可视化医疗数据挖掘平台的设计与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:maclin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国医疗信息化发展的现状仍与国际水平有很大的差距,医学术语标准化与应用现状、医院采购于不同厂商的HIS系统之间的信息孤岛、大量有价值却结构不统一的历史数据无法得到有效利用等一些问题阻碍着我国医疗信息化的发展。随着信息化水平的提高及医疗历史数据的堆积对于医院领导决策的要求越来越高,从海量的数据中找出有价值的疾病诊断和预防规律也越来越难。随着数据分析挖掘以及可视化技术的日趋成熟,在各个领域都开始得到了广泛的应用,而在医疗数据挖掘领域方面的应用研究还非常少。  本文的工作主要围绕将医院现有的结构化与非结构化数据进入数据仓库之后如何使用数据分析挖掘及可视化技术展开,将数据挖掘与可视化技术应用于医疗信息化当中。运用J2EE技术、Mysql数据库、先进的可视化技术D3并充分利用成熟的Pentaho BI系统和成熟的数据挖掘工具Weka、采用B/S结构的方式开发基于weka的可视化医疗数据挖掘平台,为医疗数据分析挖掘工作的开展提供技术支撑,降低医疗数据分析挖掘过程中研究人员必须要具备的计算机技术与数据挖掘理论要求。  本文设计平台的创新点在于充分利用数据挖掘开源软件weka的基础上,扩展了其预处理过滤器,使weka更加适用于医疗数据挖掘,在数据源和数据挖掘结果在web端的可视化方面做了有益的尝试,实现了J48分类预测模型在web端的可视化,且实现了不同类型数据格式向ARFF格式的转换。另外设计了基于webservice的weka与Pentaho BI软件集成中间件,实现了Pentaho BI与weka的两个异构系统的松耦合集成,与开源Pentaho BI对weka的黑盒软件复用方式相比更加深入。  最后,从性能、挖掘算法正确性、可视化的交互性等方面对平台进行了测试,测试结果表明本平台提供的挖掘算法比较准确,由于网络传输带来的开销,性能较开源桌面版weka稍差,但可视化交互性更好。另外系统在辅助探索十五种血液病与血常规检查结果之间的关系方面得到了应用,得到的挖掘结果表明血液病种与首诊血常规之间存在一定的关系。
其他文献
Rootkit是攻击者在入侵系统后为了保持对系统的超级用户访问权限,创建后门和隐藏攻击痕迹而常采用的一种技术。Rootkit主要有两个功能:隐藏自身和信息窃取。Rootkit可以存在
正交频分复用(OFDM,Orthogonal Frequency Division Multiplexing)是目前频谱利用率最高的一种技术,适合在多径传播和多普勒频移的无线移动信道中传输高速数据。OFDM能有效对
虽然不是所有的应用软件都适合用云计算来实现,但云计算的易捷性让很多企业看到了一种新的提供软件和存储服务的模式。网络环境的改善加上云计算自身在安全方面的突破和标准
扩频通信作为一种新型的通信体制,具有很多独特的优点,在军用和民用领域中都得到了广泛的应用。扩频通信中一个关键性的问题就是扩频信号的同步,包括捕获和跟踪两个步骤,同步
盲源分离是20世纪80年代后期迅速发展起来的一个研究领域,是目前信号处理中新兴的技术之一。盲源分离是指在源信号未知、传输系统未知的条件下,只根据观测的混合信号的统计特
无线技术的发展,使得无线环境乃至移动环境下开展流媒体业务逐渐成为现实。但是无线信道高的丢包率和时变特性、终端用户的异构性使得无线网络中流媒体传输能力受到限制。克服
中继协作通信是当前无线通信领域的研究热点之一。它为下一代无线网络在高速率、高可靠性和广覆盖方面的要求提供了技术支撑,同时又能克服传统无线网络伸缩性差7、鲁棒性低等
随着无线技术、传感技术、集成技术等的快速发展,无线传感器网络(WSN:Wireless Sensor Networks)成为越来越受人关注和研究的技术。无线传感器网络是由大量廉价的、低能耗、微型
随着信息时代的进步,信息的膨胀使市场对多媒体通信的要求越来越高,新近的国际视频编码标准H.264/AVC和国家视频编码标准AVS都得到了较高的压缩效率,在数字电视,多媒体通信等