基于云计算的贝叶斯算法在疾病预测中的研究与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:shying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
疾病诊断是医学领域的重要课题。各种医疗机构积累了越来越多的就诊样本数据,人工对样本进行疾病分类预测的结果限于经验、决策能力等主观因素的影响难以避免地出现误差,其分类精度和效率有很大提升空间。中医疾病预测理论强调健康与内外环境密切关联,基于概率统计学的贝叶斯分类器的类属性联合概率很难被准确估计,基于单机内存的分类算法也无法在期望时间内处理大规模样本集。理想的分类模型能充分表达样本特征和疾病类别间的关联,提高分类效果和可扩展性。钊对以上不足,本文主要做了以下几点改进。首先,从局部学习的角度提出了一种基于余弦相似度进行实例加权改进的朴素贝叶斯分类算法(IWIMNB)。算法在训练样本集的局部构建高质量分类器,利用局部的训练样本弱化属性条件独立性假设,使用余弦相似度度量验证与训练样本的距离,并作为权值对修正的朴素贝叶斯模型进行参数训练,对比实验的结果表明IWIMNB算法可操作性强并具有更好的分类效果。其次,从结构扩展的角度考虑将关联规则应用到加权平均的1-依赖贝叶斯模型(AR-WAODE),从而考虑非公共父结点属性间依赖关系与不同AODE对分类的贡献。为了提高生成关联规则的效率,提出了一种基于矩阵剪枝的分布式频繁项集挖掘算法(DFIMA),目的是减少Apriori算法产生的无用候选项集及文件系统I/O负载,利用2-候选项集矩阵对生成(k+1)-频繁项集的计算过程进行剪枝,之后基于内存迭代计算框架Spark实现改进算法,对比实验的结果表明DFIMA能减少迭代过程中产生的无用候选项集,在加速比和可扩展性上表现良好。然后,基于Hadoop框架实现AR-WAODE分类算法(Hadoop-AR-WAODE),从而提高模型参数的训练速度。算法主要分为预处理作业、分类器的训练作业和预测作业。对比实验的结果表明,Hadoop-AR-WAODE通过考虑非公共父结点属性间依赖关系以及不同AODE对分类结果的贡献不同提高了分类模型的预测效果,在处理大规模样本集时分类效率得到有效改进。最后,将Hadoop-AR-WAODE算法应用到疾病分类预测实际问题中,以对原始样本集的初步数据分析结论为指导,设计并实现一个疾病分类模型。模型以经络值、面象舌象脉象测量值、气象数据为输入,以疾病类别为输出。对比实验的结果表明受限于疾病预测理论的不成熟,疾病分类模型的分类效果有限,但模型具有较好的处理效率与可扩展性,在疾病预测领域具有一定的参考价值。
其他文献
随着乌鲁木齐电网的发展,各类工业电器及电力电子器件的应用日益广泛。近年来尤其是钢铁企业炼钢电弧炉及轧机容量的增大,使得各种非线性负荷注入电网的谐波越来越多。谐波对电
随着在航空器和发动机上所用的机载系统和设备对软件的使用迅速增加,为满足适航性要求,航空无线电技术委员会(RTCA)制定了DO-178B标准。虽然DO-178B在国内民航领域越来越受重视
模型库是利用规范的形式存储模型以及相关信息的场所。模型库提供模型的定义、特征信息及模型代码,是模型元素的集合。本文首先对仿真模型库的概念和结构进行总结分析,通过对
数字化技术的发展和成熟,使越来越多的数字作品通过Internet进行传播,它们可以低成本、高速度地被复制和传播,但这些特性也容易被盗版者所利用,使得网络信息安全隐患正全方位
随着信息技术的发展及信息系统在社会生活各领域日益广泛且深入的应用,信息安全成为信息技术研究当中不可或缺的一部分,并越来越显示出它的重要性。操作系统的安全是整个信息
随着信息产业的不断发展,网络已经成为人们工作生活中不可缺少的重要工具。Web也随之成为人类获取信息的主要来源。Web中的数据正以每天新增一百万个页面的速度增长。到目前
随着互联网的快速发展,XML已逐渐成为互联网上数据存储与交换的标准。但是,XML文件是以树状的结构来表示,每一次的数据查询都必须从树的根节点开始搜寻读取,透过每一层的标签
随着互联网深入到大家的生活之中,与互联网技术紧密联系的无线传感器网络无疑会得到长足的发展。无线传感器网络以通常意义上来讲就是利用传感器节点对某一区域进行感知、采
“结构决定功能”是系统科学的基本观点。如果将复杂系统内部的各个元素抽象为节点,元素之间关系视为连接,那么就构成了一个具有复杂连接关系的网络,通常称为复杂网络。自然
随着网络的快速发展,网络流媒体等数字视频显得无处不在,视频压缩编码也成为数字视频技术中重要的一部分。H.264作为一种最新的视频编码标准,拥有更高的压缩率和更清晰的视频