论文部分内容阅读
高血压是最常见的心血管疾病,危害巨大,它是冠心病、心肌梗塞的主要诱因,不仅具有较高的致残率和致死率,而且严重消耗了我国的医疗资源,位居引起死亡的十大危险因素之首。高血压具有一次得病、终生吃药的特点,有效控制患者血压是预防心脑血管等并发症的重要因素。目前,高血压主要是通过药物治疗,但高血压患者的知晓率、治疗率、控制率却一直非常低,如何有效提高高血压患者的知晓率、治疗率及控制率具有重要的研究意义。移动互联网新技术的发展促使了高血压传统医疗模式的改变,将传统的血压监测设备与大数据等移动互联网尖端技术创新融合,通过无线或蓝牙将移动终端APP和专业血压监测设备连接的方式,帮助用户完成从“测量数据-解读数据-分享数据-靠近健康”的一个完整解决人体健康需求的闭环。在给用户带来方便快捷的同时,积累了海量数据,挖掘出海量数据中的价值具有重要的研究意义。针对以上问题,本文首先对高血压领域、数据挖掘以及大数据领域进行深入研究和分析,提出了基于Spark平台的高血压药物推荐及疗效预测研究,具体来说,主要完成了以下工作:(1)针对高血压治疗率低的问题,研究了结合案例推理与贝叶斯推理的高血压患者药物推荐模型,首先通过案例推理得到大量相似案例,之后由贝叶斯推理得到药物列表。案例推理是药物推荐的常用模型,具有简单、高效的特点,但其对大量相似案例处理能力不足,而贝叶斯推理具有丰富的概率表达能力。通过融合案例推理与贝叶斯推理的优点,辅助医师决策,提高了高血压患者药物准确率。(2)针对高血压控制率低的问题,提出了分层时间序列聚类药物疗效预测模型,通过引入分层模型,有效解决了时间序列聚类药物疗效预测模型存在的准确率不高、时间复杂度高的问题。首先,通过分层模型阈值控制时间序列聚类的高血压电子病历,之后,将每一位高血压患者用药周期的血压水平建立时间序列曲线,采用两阶段聚类分析方法,根据两条曲线的结构相似度划分为多个匹配度高的片段并计算所有匹配片段的值差异和作为聚类的依据。最后通过对患者时间序列曲线聚类从而预测患者药物疗效。(3)针对单机对海量数据处理的时间性能不足问题,研究了上述高血压药物推荐模型及药物疗效预测模型在Spark平台下的并行化设计及实现。主要设计并实现了并行化贝叶斯算法与并行化K-Means聚类算法,并与单机及Hadoop平台对比分析,提高了数据处理效率及时间性能。实验表明,高血压患者药物推荐模型及疗效预测模型具有良好的准确率及实用性。通过在Spark平台上的并行化实现,大大提高了模型算法的执行时间及性能。另外,通过课题组的实验研究,研发了高血压患者药物预测平台,将药物推荐模型及疗效预测模型集成到平台中,大大简化了操作复杂度并可以方便的辅助医师决策。