基于拆解策略的高维多分类不平衡判别模型算法研究及应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:heyifeizhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景和目的:
  利用高维组学数据(基因组学、代谢组学、影像组学等)对疾病进行辅助诊断、亚型判别等对个性化诊疗具有重要意义。因为各种疾病类型及亚型的患病率不尽相同且相差悬殊,因此这些高维组学数据通常为多分类不平衡数据。多分类不平衡数据是指在数据集中一个或多个类别的构成比较小(少数类)而其它类别的构成比较大(多数类)。针对平衡数据构造的传统判别模型,通常以总体判别准确率作为优化目标。当这些模型被直接应用于非平衡问题时往往倾向于将更多的观测预测为多数类,从而导致其对少数类别的判别性能严重降低。如何针对多分类不平衡问题构造效果良好的判别模型一直是研究者关心的问题。此外,由于多分类判别模型的决策边界复杂度较高,直接针对多个类别构建不平衡判别模型往往难以达到理想的效果。为此,本研究针对这两个问题,分别提出了两种新的多分类不平衡判别算法,并利用模拟实验和实例数据对这两种新算法的判别性能进行验证。此外,在应用研究部分,本研究利用影像组学技术,构建了常见颅内肿瘤的影像组学数据库,并利用这一典型的多分类不平衡数据和本研究提出的算法构建常见颅内肿瘤的辅助诊断模型,为颅内肿瘤诊断决策提供新的辅助手段。
  方法:
  在模型理论研究中,本研究首先提出了两种基于拆解策略的多分类不平衡判别算法:ACM(Adaptive adjust Coding Method)算法和APM(Adaptive PredictionMoving)算法。ACM算法在利用编码矩阵和预测值向量之间的距离对基础分类器进行集成时,自适应地调整了编码矩阵中各类别的编码,从而降低了对基础分类器校准度的要求;APM算法依据集成后的判别效果自适应、反馈性地对所有基础分类器的预测值同时进行调整,从而达到最优的预测结果。然后,利用模拟实验探索了样本量和不平衡率对ACM算法、APM算法和其它7种常用的基于拆解策略的多分类不平衡算法判别性能的影响。模拟实验利用联合正态分布生成了三分类不平衡数据,并设置了不同的样本量和不平衡率情况。其中,不平衡率分别设置为1∶2∶3,1∶3∶5,1∶5∶7,1∶7∶11,例数最少的类别(最小类别)样本量分别设置为20,30,50,其它类别的样本量依次根据最小类别的样本量和不平衡率进行设置。最后本研究在TOX-171、MLL、SRBCT、Lymphoma、Breast五个公认的多分类不平衡基因微阵列数据集上用F值、G-mean、MAUC三个评价指标对ACM算法、APM算法与其它算法的判别性能进行了对比。
  在应用研究中,本研究收集了临沂市人民医院2011年至2016年病理确认的474名新发颅内肿瘤患者的数据资料,包括:病历资料、MRI图像(T2 FLAIR、T1加强矢状位、T1加强冠状位、T1加强轴位共四种序列)和影像检查报告。本研究利用影像组学技术从四种序列MRI图像中共提取了336个影像组学特征,而且通过对影像检查报告结构化提取了肿瘤侵及位置。基于这些数据,利用本研究提出的APM算法构建常见颅内肿瘤辅助诊断模型。
  结果:
  模拟实验结果显示,在不同样本量和不同不平衡率情况下,ACM算法和APM算法的判别性能均好于其它算法。当样本量较小(Nminimun=20)时,所有算法的F值均随着不平衡率的增大而呈现下降趋势,但是ACM算法和APM算法受不平衡率的影响更小。从不平衡率等于1∶3∶5开始,ACM算法和APM算法相对于其它算法的优势越来越明显。尤其是当不平衡率等于1∶5∶7时,除了ACM算法和APM算法外,其它算法的F值均在0.7以下。不过,APM算法的判别性能略微低于ACM算法。当样本量增大(Nminimun=50)时,所有算法的F值均有所提高,而且ACM算法和APM算法的F值在不同不平衡率情况下均高于其它算法,除这两个算法外,其它算法的F值均低于0.8。并且,ACM算法和APM算法的判别性能十分接近。
  在5个基因微阵列数据集上,ACM算法和APM算法对所有类别的综合判别性能总体上均优于其它算法。在TOX数据集上,当以F值作为评价指标时,APM算法的判别性能最好,达到0.845;当以G-mean作为评价指标时,ACM算法的判别性能最好,达到0.836。在MLL数据集上,APM算法的F值、G-mean和MAUC分别为0.951、0.951和0.966,这三个评价指标均高于其它算法;ACM算法的F值、G-mean和MAUC分别为0.943、0.941和0.960,仅次于APM算法。在SRBCT数据集上,ACM算法的F值、G-mean和MAUC分别为0.996、0.996和0.997,均是所有算法中最高的;APM算法的F值、G-mean和MAUC分别为0.992、0.990和0.994,仅次于ACM算法。在Lymphoma数据集上,APM算法的F值、G-mean和MAUC分别为0.993、0.997和0.997,优于其它算法;ACM算法的F值、G-mean和MAUC分别为0.989、0.995和0.996,仅次于APM算法。在Breast数据集上,当以F值作为评价指标时,ACM算法的判别性能最好,其值为0.874;当以G-mean或MAUC作为评价指标时,APM算法的判别性能最好,其值分别为0.893和0.920。
  此外,在5个基因微阵列数据集上,ACM算法和APM算法对各类别单独的判别性能总体上也优于其它算法。在TOX数据集上,APM算法对4个类别判别的F值分别为0.919、0.889、0.747和0.833,除了在第3个类别上略低于ACM算法(F值:0.756)外,在所有类别上均优于其它算法。在MLL数据集上,APM算法对3个类别判别的F值分别为0.929、0.988和0.933,除了在第3个类别上略低于ACM算法(F值:0.935)外,在所有类别上均优于其它算法。在SRBCT数据集上,ACM算法对4个类别判别的F值分别为1、1、0.992和0.993,在所有类别上均优于其它算法。在Lymphoma数据集上,APM算法对3个类别判别的F值分别为0.979、1和0.995,虽然在第3个类别上比其它算法略低,但是在第1、2个类别上较其它算法有明显提升。在Breast数据集上,ACM算法在3个类别上的F值分别为0.742、0.939和0.941,除了在第2个类别上略低于其它算法外,在其它类别上均优于其它算法。
  在应用研究中,474名患者的病理类型包括:260例脑膜瘤、118例弥漫性星形细胞和少突胶质细胞肿瘤、40例颅神经和脊神经肿瘤、38例鞍区肿瘤和18例间叶细胞、非脑膜上皮肿瘤,是典型的多分类不平衡数据。从4种MRI序列中共提取了336个影像组学特征。其中,有306(91.07%)个特征在五种颅内肿瘤之间具有显著性差异(FDR<0.0001)。此外,不同类型肿瘤对大脑区域不同位置的侵及频率也呈现明显的不同。基于影像组学特征和肿瘤侵及位置,利用APM算法构建的辅助诊断模型具有良好的肿瘤判别能力:总的F值为0.844。此外,在各肿瘤类型上单独的判别效果为:弥漫性星形细胞和少突胶质细胞肿瘤的F值为0.884,脑膜瘤的F值为0.959,间叶细胞、非脑膜上皮肿瘤的F值为0.621,颅神经和脊神经肿瘤的F值为0.925,鞍区肿瘤的F值为0.886。
  结论
  本研究为多分类不平衡判别问题提供了两种新型的判别算法:ACM算法和APM算法,并且在模拟数据和5个微阵列实例数据上对这两种算法的判别性能进行了验证。主要结论有:(1) ACM算法降低了对基础分类器校准度的要求,在模拟数据和实例数据分析中均取得了优于拆解策略与其它常见二分类不平衡判别模型结合的判别效果。(2) APM算法依据最终预测结果的判别性能对所有基础分类器同时进行优化,在模拟数据和实例数据中也取得了优于其它算法的判别效果。(3)与其它算法相比,ACM算法和APM算法在几乎没有降低对多数类别判别效果的情况下,明显地提升了对少数类别(或者较难判别的类别)的判别效果。(4)模拟实验结果显示在样本量较小的情况下,由于ACM算法结构更为简单所以其判别性能略优于APM算法。不过,在实例数据分析中,由于APM算法的模型优化目标更有针对性所以在多数情况下其判别性能略优于ACM算法。因此,在样本量足够的情况下,更加推荐使用APM算法。
  在应用研究中,针对颅内肿瘤辅助诊断这一典型的多分类不平衡判别问题,本研究利用所提出的APM算法构建常见颅内肿瘤辅助诊断模型,可以用于辅助医生的诊断工作,为开颅手术之前制定和优化手术方案提供参考依据。主要结论有:(1)在所有336个影像组学特征中,有306(91.07%)个特征在五种颅内肿瘤之间具有显著性差异(FDR<0.0001),显示影像组学特征充分挖掘了MRI图像的几何特性、纹理特性等特征信息,对颅内肿瘤具有很强的区分能力。此外,肿瘤侵及位置也对颅内肿瘤具有较强的判别能力。(2)本研究利用影像组学特征和肿瘤侵及位置以及APM算法构建的辅助诊断模型具有良好的颅内肿瘤判别能力(F值:0.844),优于其它基于拆解策略的多分类不平衡判别算法,具备较好的临床应用价值。
  
其他文献
研究背景  随着社会经济的发展和生活方式的改变,肥胖已成为重要公共卫生问题。我国6~18岁儿童青少年的超重肥胖率在过去的20年间显著上升,超重率由1991年的4.3%上升至2015年的11.7%,肥胖率由2.4%上升至12.7%。据估计,若不采取干预措施,到2030年7岁及以上儿童青少年超重和肥胖检出率将达28.0%,超重肥胖人数将达近5000万。  心血管疾病(Cardiovascular di
学位
研究背景当今时代,气候变化被认为是威胁人类健康的最大挑战之一,控制气候变化带来的负面影响已成为全球范围内共同目标。近年来,我国与气象因素密切相关的某些传染病发病率仍处于较高水平,由于其造成的社会经济负担日益加重,气象因素对人类健康水平造成的不良影响受到越来越多的关注。手足口病是我国法定的丙类传染病之一,是由多种肠道病毒感染所致。小于5岁儿童的发病率最高,该病具有高度传染性,可通过直接接触、飞沫、粪
学位
研究背景  胆石症是胆汁中胆固醇或胆色素等成分在胆囊或胆管中凝结析出结石的疾病。大多数胆石症患者是无症状的,但仍有部分患者因急慢性炎症而表现为胆道绞痛等症状,并可引起多种并发症,如急性胰腺炎、胆道穿孔、肝损伤、胆道系统恶性肿瘤等。除了增加医疗费用之外,还会危及患者的生命。由于环境和饮食习惯的差异,我国各个地区报告的胆石症患病率在2.4%-22.9%之间。  根据结石的所在部位,可将胆石症分为胆囊结
学位
研究背景代谢综合征(Metabolic Syndrome,MS)是指一组以超重、高血压、高甘油三酯、高密度脂蛋白胆固醇低下及胰岛素抵抗或葡萄糖耐量异常为主要表现的代谢紊乱症候群。2005年,全球范围内MS患病率约为25%,提示MS已成为国际重要公共卫生问题。根据2010年慢性病监测数据分析结果,我国的MS患病率高达30%,根据2019年一项基于多中心横断面调查研究的结果,中国≥20岁多民族人群MS
研究目的据世界卫生组织公布的2020年全球最新癌症负担数据统计,乳腺癌新发病例数快速增长,成为全球第一大癌症。放射治疗(Radiotherapy,RT)是临床上应用广泛且高效的癌症治疗手段,其主要机制是通过损伤DNA的方式引起肿瘤细胞直接死亡[1]。然而近年来,辐射诱导的“远端效应”引起临床医师和肿瘤学家的关注。远端效应是指对原发肿瘤部位进行局部放射治疗后,非受照区的肿瘤产生肿瘤自发消退,其机制被
学位
研究背景:直肠癌是最常见的恶性消化道肿瘤之一。由于缺乏早期筛查意识,大多数患者确诊时已处于局部进展期或发生远处转移。对于局部进展期直肠癌患者而言,术前新辅助放化疗+直肠全系膜切除术+术后辅助化疗是标准治疗手段。但个体对术前新辅助放化疗的病理反应具有很强的异质性,只有45%的直肠癌患者可以通过新辅助放化疗(Neoadjuvant chemoradiation,NCRT)获益。现阶段,术后病理结果评估
学位
目的抗性淀粉(Resistant starch,RS)是一种在小肠中不会被消化,而在结肠中可发酵的新型膳食纤维。近年来人们越来越关注RS,且对其生理功能的研究也愈发增多,不管是动物实验还是人体实验,都有研究表明RS对糖尿病(Diabetes mellitus,DM)防治有较好的作用,具体表现在RS可以改善空腹血糖(Fasting blood glucose,FBG)和胰岛素水平,减少胰岛素抵抗,增
学位
研究背景随着儿童超重肥胖及不健康生活方式的流行,儿童血压偏高已成为重要的公共卫生问题。中国营养与健康调查数据显示,根据“2018年中国高血压防治指南中的儿童血压偏高判定标准”,儿童青少年血压偏高检出率从1991年的7.0%增长至2015年的11.7%。心血管疾病(cardiovascular diseases,CVD)占我国居民死因构成之首,其患病率和死亡率现呈持续上升趋势。既往队列研究证据显示,
学位
背景:目前有研究人员用受试者工作特征(ROC)曲线分析和最大选择秩检验的方法来确定连续性风险因素对结局的阈值或者称截断值,这两种方法都是以获得最好的预测价值为目的的单变量分析方法。流行病学和卫生统计研究有两大重要目的:疾病预测和因果推断。基于因果关系研究界值也是有意义的,该界值不同于以往的风险阈值,它的确定应当控制混杂因素,建立在因果关系的基础上。目前在因果推断上比较高级的证据是随机对照试验和孟德
研究背景  非自杀性自伤(Non-suicidal self-injury, NSSI)是指在无自杀意图的情况下采取故意的,自我施加的对身体组织的破坏,其行为目的不被社会所认可。NSSI和自杀未遂均属于故意自我伤害,主要区别在于是否存在自杀意图。鉴于两者的区别,《精神障碍诊断和统计手册》第五版(2015年)首次将非自杀性自伤障碍从自杀行为障碍中独立出来,设立了单独的诊断标准,但目前相关研究仍以自杀
学位