【摘 要】
:
集成学习是近几年机器学习在医学数据预测中的研究热点。选择性集成作为集成学习的延伸,在降低集成规模的同时又能保持较高的预测精度。选择性集成的研究关键在于它的选择策略,然而以往的静态选择并未充分考虑待测样本的差异性。因此本文设计并建立了一种为各待测样本筛选最佳基学习器集合的动态选择性集成预测模型,以此提高回归和分类的预测精度。糖尿病已成为威胁人类健康的慢性病之一。最新调查显示,我国是世界上患糖尿病人数
论文部分内容阅读
集成学习是近几年机器学习在医学数据预测中的研究热点。选择性集成作为集成学习的延伸,在降低集成规模的同时又能保持较高的预测精度。选择性集成的研究关键在于它的选择策略,然而以往的静态选择并未充分考虑待测样本的差异性。因此本文设计并建立了一种为各待测样本筛选最佳基学习器集合的动态选择性集成预测模型,以此提高回归和分类的预测精度。糖尿病已成为威胁人类健康的慢性病之一。最新调查显示,我国是世界上患糖尿病人数最多的国家,全国患者总人数约1.16亿。此外,还有部分患者因无法得到及早治疗而对他们的生活质量造成了严重影响。因此,利用选择性集成模型实现对糖尿病的回归与分类预测,为糖尿病的早期筛查和预防提供了一种依据。本文的主要研究内容包含如下三个方面:(1)提出了一种基于特征重要度加权的样本近邻相似性度量。由于基学习器对不同待测样本的预测精度存在差异,本文利用待测样本的近邻样本进行基学习器的预测精度评估。然而现有的近邻相似性度量通常采用欧氏距离等方式,缺乏对于样本特征重要度的关注。基于此,本文利用随机森林在评估特征重要性方面具有的可解释性强、参数调整少等优势,提出了一种基于特征重要度加权的样本近邻相似度量。实验结果显示,该相似性度量方法提高了回归和分类的预测精度。(2)设计并建立了一种基于样本近邻预测精度评估的动态选择性集成预测模型DSEP-KNNPAE(Dynamic Selective Ensemble Prediction Model Based on K-Nearest Neighbors Prediction Accuracy Evaluation)。该模型通过基于特征重要度加权的近邻相似性度量方法来寻找待测样本的最佳近邻样本,根据近邻样本对基学习器预测精度的评估,选择出具有较高预测精度的基学习器来达到动态选择性集成预测的目的。通过不同算法的对比实验和参数敏感性分析实验,验证了本文建立的模型在回归和分类的预测精度上优于现有集成学习算法。(3)将DSEP-KNNPAE应用于糖尿病血糖回归预测和妊娠型糖尿病遗传风险分类预测,用于早期筛查辅助决策。相较于现有集成学习算法,DSEP-KNNPAE在糖尿病预测中具有更高的预测精度,有效提高了糖尿病的筛查效果。
其他文献
背景:正常的输卵管上皮纤毛摆动频率(Fallopian tubal cilia beat frequency,CBF)和肌肉蠕动功能对于受精卵的运输十分重要。其功能异常会导致输卵管妊娠(Tubal pregnancy,TP
莲子为睡莲科植物莲Nelumbo nucifera Gaertn.的干燥成熟种子,具有养心安神、益肾涩精等功效,为一味大宗常用的药食两用中药材。受其中含有的大量淀粉和油脂等内在因素及外界环境条件的影响,莲子在采收、加工、储藏及流通过程中,若操作不当极易感染真菌,从而产生具有强毒性的真菌毒素,其中黄曲霉毒素B1(AFB1)最为常见且毒性最强。因此,开发灵敏、准确且普适性良好的痕量分析手段快速评价大批
工期延误是建设工程领域一个常见问题,通常会带来成本的急剧增加、大大提升建设项目的管理复杂度,进而对建设项目的成功与否产生重要影响。当前,建设项目施工计划的重要性已被建设项目各类干系人所广泛认知,并成为了由于工期延误所导致的诉讼及索赔中,用于界定各干系人责任的重要依据。因此,了解建设项目工期延误的原因,进而减少此类问题发生的可能性,显得至关重要。本研究以埃塞俄比亚Awash-Kombolcha-Ha
本文聚焦日语教学语法中的动词学习项目,探寻在实际教学中应采取何种指导法来提高教育与学习的效果。长期以来,我国大学的日语专业在实际教学中借用了日本的“学校语法”。然而时至今日,随着中国日语教育需求逐步增大,为了更好的契合我国学生的学习状况和实际需求,构建一套适合中国学习者的日语教学语法体系愈发必要。动词作为教学语法中的重要构成部分,其意义、活用、与格助词的搭配等方面对学习者来说都是习得的难点和重点。
随着人工智能、机器学习领域的快速发展,雷达测量仪器趋于精密化,接收端获得的包含有目标信息的点迹数据量大大增加,这给后续目标跟踪,航迹处理带来了极大的不便。为了实现目标的精确探测,保证目标跟踪过程中航迹信息的准确性,性能良好的点迹凝聚算法变得尤为重要。本文对两种点迹凝聚算法进行研究,分别是基于KD-树空间搜索的DBSCAN凝聚算法和基于轮廓跟踪区域生长的点迹凝聚算法,两种算法分别通过DBSCAN对目
随着经济的发展和社会的进步,我们越发强烈地感受到现代生活所带来的幸福感。但环境污染问题也难以避免地随之产生,并日益突出;由于人们的生产生活离不开环境,故环境污染只要出现,就极易对人体健康造成损害。而我国环境污染致人体健康损害的救济机制尚有诸多不完善之处,对此展开相关研究具有重要的理论意义与现实意义。当前,立法方面对环境权的规定相对笼统,环境污染致人体健康损害的违法成本低廉;司法方面原告举证难度较大
生态翻译学是胡庚申教授将达尔文的“自然选择”和“适者生存”理论与翻译学相结合,创造性提出的一个全新的翻译理论。它从“选择”和“适应”的全新角度,对翻译的各个方面做出了新的阐释,为翻译研究提供了新的视角。从搜集到的资料可以看出,目前关于《活着》维吾尔语译本的系统性研究还比较少,仅有的几篇研究也大都是从传统翻译的角度进行的,以生态翻译学为研究视角,对《活着》的维吾尔语译本进行研究的成果几近于无。本论文
苦水玫瑰是我国油用玫瑰的著名品种,该玫瑰品种生产出的精油色泽透亮、清香纯正独特。食品工业上,现常使用玫瑰精油生产食品添加剂来增加食品风味或延长食品贮藏期。而盐渍处理是工业上提高玫瑰精油得率常用的一种手段,但经盐渍处理后精油、纯露在成分、香气等方面是否会发生变化我们却不得而知。同时,玫瑰精油价格昂贵,性质不稳定等因素也极大的限制了它的应用。因此,本文以苦水玫瑰为研究对象,全面研究了盐渍处理对精油、纯
2008年经济危机以来,审计报告质量的提升成为审计领域众多学者的研究重点。为满足资本市场的信息需求、提高审计报告信息含量和披露质量,英国财务报告委员会(FRC)2013年率先推行审计报告的格式及内容改革。2015年1月,国际审计与鉴证准则理事会(IAASB)紧随其后,出台了新的国际审计报告准则。为了跟进国际报告准则的发展步伐,我国也加紧修订审计报告准则,于2016年12月23日发布12项审计准则,
高韧性水泥基复合材料克服了混凝土拉伸强度低、脆性破坏等缺点,具有应变硬化和多裂缝开裂特性,是一种高韧性和高耐久性能的新型建筑材料。课题组以低成本聚乙烯醇纤维(PVA)为增韧材料,以沙漠砂为细集料,制备了高韧性水泥基复合材料(DSECC),并系统开展了其力学性能的研究。研究发现,沙漠砂种类和水胶比对ECC力学性能有较大的影响,有必要进一步开展其耐久性的研究工作。盐溶液和冻融复合作用是导致结构耐久性不