基于集成学习的多疾病指标预测研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wren200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,人们的健康意识有了明显提升,对一些疾病现状的改善也有了更为殷切的期待。心脑血管疾病作为一类常见的慢性病,对人民生命健康危害极大。若能从现有的医疗数据中挖掘出与该疾病存在紧密联系的信息,对其预防将起到一定程度的指导作用。本文针对医疗数据进行了五项疾病指标的预测研究。研究过程分为四个阶段。在数据处理以及特征工程阶段,先根据判别比例实现对数值混合型及文本型数据的划分,然后分别按照正则表达式匹配规则以及文本与数值映射规则完成向标准数值型数据的转化。基于文本特征信息,最终实现了新特征的提取以及交叉特征的构建,并通过计算袋外数据误差完成了特征选择。第二阶段建立了随机森林模型以及LightGBM模型,接着分别通过GridSearchCV算法及Scikit-Optimize库实现了模型的参数优化,从训练效率和预测精度来看,LightGBM模型表现更优。通过分析模型中的重要特征与疾病指标的实际联系,可在一定程度上验证模型的合理性。第三阶段比较了五种测试集划分比例下模型的损失函数值,发现LightGBM模型表现出稳健的预测效果,XGBoost模型表现稍弱于LightGBM模型,但要远优于随机森林模型。第四阶段改进了二分类任务的Focal Loss损失函数,实现了多分类的样本均衡化处理。最终通过模型融合,实现了模型性能的进一步提升。
其他文献
数据量的增大使得变量选择方法变得尤为重要。在社会调查中,经常出现分类变量,它们往往需要被转换为虚拟变量加入模型中,这就自然出现了虚拟变量组。除此之外,也可能存在其他类型变量组结构。在这种情况下,组变量选择方法比单变量选择方法更为适用。而在大数据时代,数据价值密度低,具有稀疏性,所以学者也常需要在选择组变量的同时选择组内变量。在模型选择方面,因分位数回归模型较传统线性回归模型更为稳健,所以本文考虑将
学位
在一个组合优化逆问题中,在当前的参数下给定一个可行非最优的解,我们的目的是尽可能小地修改当前的参数使得给定的可行解最优.修改参数的成本可以用例如赋权l1范数,赋权l2范数,赋权l∞范数以及赋权哈明距离等等不同的范数进行测量.在这篇文章中,我们关注带约束的赋权哈明距离下最小流逆问题.针对一般情况下有界的赋权瓶颈型哈明距离最小流逆问题,通过构造剩余网络N’(V,A’,u’,s,t)并将其修改为赋权网络
学位
随着互联网信息技术和移动电子设备的快速发展,数据文件云存储孕育而生并且成为了人们的首选,然而将数据文件直接存储在云空间面临数据泄漏的风险。为解决这一问题,目前较为有效的方式是将加密后的数据文件上传至云空间,因此如何对云端加密文件实现数据共享和检索机制是一大挑战。针对上述问题,本文先提出了一个支持布尔查询的在线/离线属性基多词检索加密方案。为实现数据库的访问控制,在线性秘密共享的访问结构下,方案采用
学位
本文研究了一个带有传输条件的二维间断系数椭圆特征值问题的数值方法。我们首先证明方程的一些基本性质,即方程的特征值都是实数,且对于不同的特征值,相应的特征函数是正交的;其次,对特征值和特征函数的数值解进行误差分析和算法实现;最后利用有限元方法和Legendre-Galerkin谱方法对方程进行数值求解,并对结果进行分析。数值结果中,数值实验误差结果与理论误差分析结果相吻合。对于谱方法而言,当系数间断
学位
分圆域理论源于19世纪中期Kummer对费马大定理的研究,是代数数论的重要组成部分。经典的分圆域理论对后世数论的发展影响巨大,它不仅为费马大定理的成功证明提供了基础,还帮助Preda Mihailescu解决了问世158年的Catalan猜想,为丢番图方程领域的进步做出了卓越的贡献。近代的分圆域理论以Iwasawa理论为代表,作为当今世界数论领域的核心问题之一,彻底解决Iwasawa主猜想和探究I
学位
矩阵谱半径,也称作Frobenius-Perron维数,是研究线性范畴很有用的工具,在代数模范畴的分类中发挥着重要作用.本学位论文研究表示直向代数,canonical商代数以及一类含loop路代数的商代数模范畴的Frobenius-Perron维数.第一章,我们介绍了论文研究课题的背景和最新发展动态,并概述本论文的主要工作.第二章,我们回顾了线性范畴及其自函子的Frobenius-Perron维数
学位
本文应用经典李超代数中的奇反射原理,对第一型经典李超代数gl(m|n),osp(2|2n)和p(n)上的Kac模和(抛物)Verma模的一些性质进行了研究.在关于Kac模基座的一个已知结果的基础上,我们重新证明了 gl(m|n)和osp(2|2n)上Kac模的单性判别法,得到了关于p(n)的判别法.然后我们描述了这三类李超代数上的(抛物)Verma模的基座,得到了计算gl(m|n)和osp(2|2
学位
两阶段柔性流水车间排序问题是处理一组工件的制造基础架构,其中第一阶段仅有一台机器,第二阶段有m台并行的机器.在第二阶段,每个工件可以由多台并行的机器进行处理.目标是最小化工件的最大完工时间,即makespan.本文主要研究不可中断的两阶段柔性流水车间排序问题的近似算法设计和最坏情况界分析.在多个不同机器环境下设计了相应的近似算法,并给出了它们的最坏情况界.全文总共分为五章,第一章介绍了排序问题的相
学位
为评价杀爆弹对典型方舱车辆的毁伤能力,本文分析了方舱车辆目标易损性,研究了冲击波对典型方舱结构毁伤和破片威力场与目标交会及可视化技术,开发设计了杀爆弹对典型方舱车辆毁伤效应软件,具有良好的工程应用价值。对典型方舱车辆功能和结构进行分析,给出了目标结构树和三维结构模型,提出了毁伤等级,建立了毁伤树和毁伤等效模型,确定了毁伤判据与准则。运用AUTODYN的Remap技术实现了冲击波对典型方舱结构毁伤仿
学位
本文主要研究Z+k-作用子系统的正向可扩性和熵的相关问题.令α为紧度量空间上的Z+k-作用,对任意的1≤j≤ k-1,令Gj+={V+:=V∩R+k:其中V是Rk的j-维子空间}.本文首先考虑α沿着V+∈Gj+方向的正向可扩性和方向熵的问题.利用M.Bolye和D.Lind在[1]中为研究Zk-作用而发展起来的“coding”和“shading”技术考虑Z+k-作用的情形,证明了由α的正向可扩j-
学位