基于贝叶斯网络的健康数据分类模型研究与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:sj1020300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息智能化进程不断推进,人工智能已经广泛应用于各个方面。尤其在医疗诊断领域,越来越多的生理指标和疾病类型,加大了医生诊断疾病的难度,为了解决这个问题,许多研究学者将机器学习应用到疾病预测中,一方面可以对医生的诊断结果提供进一步的验证,另一方面还能给医生提供一个复杂疾病的分析工具。贝叶斯网络作为问题不确定推理的一个有效手段,它结合概率论和图论相关知识不仅可以完成问题的后验概率推理,还能很清楚地描绘出变量之间存在的依赖关系,具有很强的应用价值。本文以甲状腺功能减退症为研究对象,根据不同的网络结构构建了不同的贝叶斯网络分类模型,主要研究工作如下:(1)针对K2算法在学习贝叶斯网络结构时需要提供先验节点序的问题,本文使用传统遗传算法来学习节点次序,并针对传统遗传算法具有收敛速度较慢和收敛精度不高的问题,对其进行了改进,主要做法为将进化分为两个过程:渐变遗传过程和突变遗传过程。渐变遗传过程的目的是快速地获得较优的种群,因此使用了竞争淘汰的交叉变异方法;突变遗传阶段的目的是尽可能增加种群多样性,因此使用了动态增加变异概率,防止进化陷入局部最优。实验表明改进算法可以学习到更优的网络机构。(2)由于甲状腺功能减退症数据集中存在连续属性和缺失值,需要先对其进行预处理过程,然后基于预处理后的甲状腺功能减退症数据构建了朴素贝叶斯网络分类器、TAN分类器、BAN分类器和MBN分类器,并通过实验对比了这四种分类器的性能,最后结果表明BAN分类器的平均分类效果最好。(3)分析了甲状腺功能减退症数据中冗余属性的影响,并发现以全部属性作为网络节点的分类效果不是最佳的,因此将特征选择引入到分类模型中。然后针对ReliefF算法忽略特征之间相关性的缺陷,提出了一种改进算法,即用信息论中对称不确定来衡量特征之间冗余性,在ReliefF算法的基础上进一步剔除了冗余特征。实验结果表明,在参数设置合适时经过特征选择后的分类模型具有更好的分类效果。
其他文献
随着医疗信息化进程的不断发展,健康数据资料日益累积,传统医疗健康行业逐步迈入大数据时代。对健康大数据进行分析处理,不仅可以提供疾病预测、辅助诊断、决策支持,还能实现
近年来,物流产业飞速发展,更有效的配置物流资源以及更合理的个性化服务是提高物流产业竞争力的关键因素。这样首先要解决数据异构问题,然后针对不同的需求匹配相应的服务,达
移动Ad hoc网络是一种不依赖与固定设施的、自组织的无线网络,其组网方便、快捷,不受时间和空间的限制,既可应用于救援、会议、战场、探险或危险环境中的目标监控等场合,又可用于
大量计算机应用对于存储规模和性能的迫切要求导致基于商业化部件的存储集群系统产生和发展。存储集群将每个存储设备作为一个存储节点,所有的节点通过高速互联网络连接起来
远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。它利用物理位置上分离的存储设备所具备的远程数据连接功能,在远程维护一套数
随着网际网络的快速发展,Web生活与人们的日常生活休戚相关。然而网路环境复杂多变,用户的讯息很容易被截获和复制。认证用户身份的合法性,保护用户敏感数据隐秘性,将倍受关
语言模型(Language Model)是描述自然语言内在规律的数学模型,在机器翻译、语音识别、文字处理、信息检索等领域中占据着十分重要的地位。一个可靠的语言模型对于提高机器翻
随着Internet的迅猛发展,文本信息的数量也日益增加,文本信息的自动处理也变得越来越重要。文本分类作为自然语言处理的一个基本问题,是文本信息处理中的一项主要技术,受到文
写作是大规模语言考试中用于衡量应试者语言知识和词语组织能力的重要途径,然而基于人工评分的方法存在以下缺点:一是耗费巨大的人力、物力、财力。二是评分的主观性强、误差
基于MVC设计模式的J2EE软件开发正成为当今软件开发的一个热点,本课题中物流实训系统的设计和实现正依赖于MVC设计模式,并最终以Browser/Server结构形式实现。传统J2EE架构使