论文部分内容阅读
医疗卫生体系的发展水平直接关系到人民群众的身心健康和中国梦的实现,是全社会关注的热点。在如今医疗改革的关键时期,应紧密结合物联网和云计算技术,切实加强医疗健康领域的信息化水平。健康物联网旨在通过先进的感知技术实现医疗信息的准确、实时感知,通过便捷全方位的通信技术实现医疗健康领域的互联互通,通过高效的数据处理技术实现医疗健康信息的全面、科学分析和预测。健康物联网数据处理总体流程是通过接收健康物联网智能采集终端的海量异构数据,对数据进行分布式存储,过滤进而对其进行分布式数据挖掘,让医学专家更有效的对病情进行分析。基于Hadoop平台对健康物联网数据进行处理挖掘时,本文首先对Hadoop源码进行研究,设计实现了分布式数据清洗算法以过滤冗余数据;接着重点研究设计了若干分布式数据挖掘算法,并对这些分布式算法进行了正确性验证。通过对这些算法的设计实现,可以为上层的健康服务应用提供良好的预测模型。对生理数据进行分布式数据挖掘时,首先分析了分布式聚类算法,又结合了蚁群的核心思想设计实现了基于Hadoop的分布式DKBAC(Distributed Kmeans Based on Ant Clustering)聚类算法。本文对病理信息数据进行聚类,通过实验将DKBAC算法与相关分布式聚类算法在准确率、平均查全率及时间效率等性能指标上做了比较和分析。为满足健康物联网各种预测分析的需要,需研究实现更多数据挖掘算法和模型,本文主要研究了基于Hadoop的分布式随机森林分类算法与分布式关联规则算法,并对算法进行具体的分布式设计,将其在Hadoop下进行部署实现并与相关算法进行了性能指标的比较和分析。通过研究实现这些主要的分布式数据挖掘算法,本文总结出分布式数据挖掘算法的一般设计原则及适用范围,为后续实现更多健康物联网分布式数据挖掘算法指明了万向。