基于SMOTE+ENN与随机森林的心电辅助诊疗应用研究

来源 :东华大学 | 被引量 : 2次 | 上传用户:xiaoyueban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今人工智能与医疗行业的融合已经深入,本文建立在基于人工智能的专病临床辅助决策研发背景下,并将人工智能技术应用到医疗健康临床辅助诊疗决策中。在本文所研究的心电图(Electrocardiogram,ECG)领域,用于检测心率失常等心脏疾病的人工智能机器学习方法已经有很多,例如卷积神经网络(CNN)、支持向量机(SVM)、决策树(DT)等多种算法。目前也已有许多基于公开数据集的心电数据分类方法,并取得了良好的效果,但他们缺乏相应的医学可解释性,并且在面临真实世界数据集时,往往会存在数据分布不均衡,数据标注格式杂乱,用词不统一,数据标签稀缺,使用传统的分类器准确率低下等问题。针对以上问题,本文用SMOTE+ENN的集成算法改善了真实世界下数据分布不均衡的问题;针对数据标注杂乱与标签稀缺的问题,本文主要参照了MIT-BIH心律失常数据库(MITDB)中的专家标注与临床心电和相关医学领域的背景与专业知识,建立了面向上海某著名医院的数据标签库;针对传统的机器学习算法对真实世界数据准确率低下的问题,本文以随机森林算法为基础,并对其进行了调参和优化。因为随机森林给出的预测率并不是准确率,故本文采用袋外数据(Out of Bag:OOB)准确度作为评价指标。本文将上海某著名医院的心电数据应用于优化后的随机森林模型(ARF),并取得了良好的分类效果。实验结果表明该医院的二分类数据集OOB准确率达96.45%,多分类数据集OOB准确率达96.62%,其均在96%以上,验证了ARF模型在真实世界数据上分类的可用性。另外本文注重计算机与研究领域的应用和结合。其中与心电相关的医学领域背景与专业知识始终贯穿本研究,具体体现在:1.心电医疗领域知识对该医院心电特征提取的指导,提取出了对疾病诊断具有关键性意义的特征;2.心电医疗领域知识对该医院标签库构建的指导,构建出了17种针对该医院的心电类型;3.将心电医疗领域知识与计算机辅助诊疗分类模型相结合,增强了医学可解释性。本研究不光注重于数据的预处理以及分类算法准确率与性能的提升,也注重相应的医学可解释性,使得基于人工智能的临床辅助诊疗更好的与医学专业领域结合。
其他文献
为解决智能学习系统查询语言的转化问题,提出一种自然语言向SQL代码转化的方法。利用所建立的字典扫描单词和理解语义,采用改进后的单词提取技术扫描自然语言串,以生成语义依
但凡用过Firefox或Chrome浏览器的用户都对多标签页带来的多窗口或多任务的高效管理有着绝对的好感。既然如此,我们为何只让浏览器才拥有这样的功能呢?既然有需求便会有供给,类似于Clover改变资源管理器的工具便诞生了,但是这款工具使用场景太过有限,为了把Windows所有软件都添加标签管理,笔者特地找来了WindowTabs,有了它我们便可随意地将系统中所有的应用切换和拖拽分组,大大提高了操
由于Firefox是一款开源的浏览器,因此网络中有很多第三方编译版本,这些版本相对于官方版本进行了很多的优化。可是这些版本一般都是英文版本,没有中文的操作界面,而国内用户要想使用的话就必须要安装中文语言包才行。那么除此以外有没有什么方法,让这些火狐版本直接显示中文界面呢?  一、释放语言包中的信息  今天我们就以知名的苍月浏览器Pale Moon为例进行介绍。首先下载最新的苍月浏览器版本,以及对应
矿区沉陷水域一般为封闭系统,不与外界流通,不易排除有害物质,受煤尘及周边环境的影响较大,其主要水源携带周边污染物,进而影响工农业生产。高光谱遥感技术具备常规水域监测
在智能手机大普及的时代,聊微信、刷微博、逛淘宝成为了掌上生活的必需品,但身边总有朋友在抱怨流量用得快、流量太贵,运营商的流量价格仍旧居高不下,4G套餐一出炉,绝大部分的人还
大数据时代,小样本问题仍然存在、不可忽视。伴随信息化技术的发展和应用,石化行业累积了海量数据,然而由于样本数据发生或重复的机率较低、样本数据获取成本过高等原因,可为
地震灾后道路随时可能因余震再次塌方堵塞,需要实时监测其可用性。为此,提出一种灾后道路可用性监测系统。利用传感器覆盖半径、系统覆盖期望和冗余度对节点进行布置,并根据
目的:研究免疫调节剂联合米非司酮在异位妊娠治疗中的疗效及安全性。方法将2011年10月至2013年11月我院收治的120例异位妊娠患者随机分为观察和对照两个研究组,每组60例。观察