机器学习方法在脑卒中风险预测方面的应用研究

来源 :广州大学 | 被引量 : 0次 | 上传用户:conqerzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当脑血管突然破裂或者由于血管堵塞造成部分血液不能流向大脑时,就会引起脑卒中。没有血液供应,脑细胞会逐渐死亡,进而大脑区域会受到影响并致使残疾。若能早期识别卒中症状,并且及时地进行干预治疗,那么对于提升患者的治疗效果以及减少患者伤残率都有重要的意义。为此本文选取了部分机器学习算法来构建脑卒中预测模型,为预测脑卒中发生风险设计了一个优异的框架,用以辅助医生进行诊治决策,期望能最大化实现对患者病情的早期预防和治疗。本文研究的主要内容如下:基于重采样方法的数据平衡。首先,对healthcare-dataset-stroke-data公开脑卒中数据集进行数据预处理,包括数据清理、均值填充、数据规范,采用两种重采样方法解决脑卒中数据集的数据不平衡问题。确定十个特征指标作为机器学习算法模型的输入,中风特征指标作为机器学习算法模型的目标预测类别。将采用欠采样和过采样方法处理后的平衡数据,分别输入到支持向量机、随机森林、逻辑回归算法构建的脑卒中预测模型中,并且,比较分析两种重采样方法优化前后的预测结果。试验结果表明,平衡后的数据明显提升了预测模型的分类性能,且SMOTE算法处理后的数据在分类预测模型中的准确率、精确度、召回率和ROC值都是最高的。基于机器学习算法构建脑卒中风险预测模型。采用部分机器学习算法构建一个堆叠(Stacking)算法模型,将优化后的数据集输入到支持向量机、随机森林、逻辑回归和堆叠算法模型中对疾病风险进行预测。从实验结果可以看出,Stacking-SMOTE算法预测模型的准确率、精确度、ROC值都比单一分类器算法预测模型更优。并且将本研究的结果与相同数据集下的研究结果进行了比较,本研究的方法明显优于其他研究方法的分类性能。此外,Stacking算法利用可解释机器学习技术来理解模型对临床预测的适用性,可以揭示预测结果背后的原因。深度学习算法和经典机器学习算法在预测卒中风险时的性能对比。首先对公开的The International Stroke Trial数据集进行数据预处理,然后采用几种深度学习方法和机器学习方法分别构建卒中风险预测模型,并将它们的预测结果进行比较,最后分析得出结论:深度学习算法在脑卒中风险预测方面的性能并不优于经典机器学习算法。
其他文献
在计算机视觉领域中,运动目标检测作为许多高级视觉任务的基础性工作,被广泛应用于智能安防、智能交通、国防军事等领域。传统运动目标检测算法针对的多是摄像机静止的场景。然而,近年来随着移动计算平台的飞速发展,越来越多的视频数据是在摄像机处于移动状态下拍摄的,如手持摄像机、云台摄像机以及车载摄像机等。在摄像机可以移动的场景下,视频中的背景在时刻发生运动,运动目标不再是导致帧间变化的唯一因素,背景与前景的混
学位
模式识别算法利用大量有标签的样本数据作为训练集对模型进行训练,进而实现对于目标样本的分类。此类算法能够起效的两大重要前提为具有大量有标签数据且这些数据与目标待识别数据具有特征空间上的同分布性。然而在大多真实应用场景中的数据往往是缺少标签的,同时为大量数据标注标签是一件十分费时费力的事。在图像识别问题中,通常人们容易获得的大量有标注的数据与实际需要进行分类的目标数据具有不同程度的分布差异。为了实现利
学位
深度学习目前在许多领域都取得出了很好的成绩,已经广泛地应用于生产生活的各个场景。深度学习的成功离不开计算芯片近年来的飞速发展,因为深度神经网络具有庞大的计算量。但是在边缘端,受限于功耗和算力,部署基于深度学习的应用依然存在巨大的挑战。本研究针对边缘端深度学习应用,提出了两种轻量化神经网络数据压缩编码方法。近来,一些研究者尝试使用信息论来打开神经信号编码的黑匣子。本研究从无线通信的有损数据压缩中受到
学位
设备到设备(Device-to-Device,D2D)通信技术作为第五代(5th Generation,5G)移动通信网络的核心技术之一,由于其巨大的网络容量、良好的资源利用效率和信号传输质量等优势,吸引了国内外广泛关注。但是D2D通信在复用蜂窝网络授权频谱资源的同时,也会带来严重的同信道干扰而损害其它用户服务质量(Quality of Service,QoS)。因此,如何设计合理有效的资源分配方
学位
针对物流仓储系统中的多任务调度问题,现有的多任务组合模型中未考虑能耗因素,而AGV(Automated Guided Vehicle)能耗越大,运行过程中充电的次数越多,会造成系统中断,从而影响系统效率。其次针对物流仓储系统中的AGV冲突问题,目前大多数采用停车等待策略来解决,而该策略会增加系统能耗。本文主要从基于能耗优化的多任务AGV调度和路径规划两方面开展研究,建立了基于能耗的多任务组合模型,
学位
随着信息技术的快速发展,无线通信设备数量呈现爆炸式增长,通信频段不断向更高频迁移。为了缓解网络的功耗压力,扩大无线网络的覆盖范围,可以采用基于无线携能通信(Simultaneous Wireless Information and Power Transfer,SWIPT)中继和智能反射表面(Intelligent Reflecting Surface,IRS)的低功耗协作转发技术。但是,考虑到无
学位
随着室内场景中的定位需求猛增,基于蓝牙指纹的室内定位技术凭借着低成本、易部署、普适的优点成为无线定位技术的研究热点之一,然而由于室内环境结构复杂、噪声干扰等现象,严重影响蓝牙的定位性能,同时,大多使用位置指纹的蓝牙定位方式的采集工作耗时耗力、整体定位精度不高。基于现有蓝牙指纹定位技术的不足,开展基于蓝牙的位置指纹定位技术研究,对推动室内位置服务产业的发展具有重要的意义。本课题以智能ROS移动小车为
学位
行程时间分布展现了路网中车辆行程时间聚集程度,行程时间可靠性则是衡量行程时间聚集程度的关键指标,即行程时间的聚集度越高则行程时间可靠性越高。以往的行程时间可靠性研究大都是基于单一路段、特定拟合分布的假设,忽略了行程时间分布的时变性、厚尾性和相邻路段间行程时间的相互影响,难以有效地计算行程时间可靠性。而行程时间高阶矩内含了行程时间分布的关键信息,同时可以考虑高阶矩间的相关性,合理利用该信息可以弥补上
学位
在线、实时的动作模式识别对于新型人机交互(Human-machine interaction,HMI)具有重要意义。由于表面肌电(Surface electromyography,sEMG)信号相较于其他传感信号,具有提前于人体动作产生这一特性,可以极大地提高动作识别的实时性,因此在康复医学与人机交互领域被广泛关注。然而,sEMG信号本身具有混沌、非平稳与非周期等性质,导致在非稳定、时变的在线应用
学位
将“耕地变化驱动力”研究作为目标领域,从中国知网数据库和外文学术期刊数据库Web of Science(WoS)分别筛选出585篇和296篇文献,利用文献归纳法和CiteSpace对目标领域的中外文献进行对比分析。结果表明:(1)中外文献时间分布大致可分为两个阶段:1999—2010年,中外文献数量分别呈现快速增长状态、缓慢增长状态;2010—2020年,中外文献数量分别呈现波动增长、稳步增长状态
期刊