基于特征选择的结直肠癌预后研究

来源 :贵州财经大学 | 被引量 : 0次 | 上传用户:sfeixxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,健康越来越成为大众关注的焦点话题。由于近几年发病率和死亡率不断攀升,癌症成为严重影响人类生活质量,威胁生命的重要因素之一。结直肠癌作为目前高发的人类胃肠道恶性肿瘤,严重危害着人类的健康。虽然我们对结直肠癌的认知不断提升,但由于结直肠癌早期诊断困难且易发生转移,因此预后状况不佳,晚期结直肠癌患者五年生存率约为13%。伴随着现代信息技术和生物医学技术的进步,基因检测技术蓬勃发展,为结直肠癌预测和结直肠癌患者预后提供了新思路。基于结直肠癌患者的全基因组数据,寻找与患者预后生存密切相关的特征基因并构建预后模型,对患者生存时间进行预测,可有效的帮助医务工作者对患者进行针对性治疗,改善患者的预后状况。在本文中,我们提出了可预测结直肠癌患者生存期的生物信息学分析方法。该方法采用TCGA数据库中结直肠癌患者的全基因组数据,结合特征选择算法和分类算法构建了预测结直肠癌患者生存时间能否超过三年的预后模型。该模型可帮助医务工作者将不同的结直肠癌患者划分到不同的危险等级组中,从而对不同的患者实施更具针对性的治疗方案,改善患者的预后情况。本文的主要工作如下:(1)针对生物基因表达数据维度过高,大量冗余基因影响后续分类效果的问题,提出了一种融合差异基因的T-F-邻域粗糙集的特征选择方法。该方法由三层结构构成,采用逐层筛减的方式和先“粗选”后“精选”的策略。第一层采用T-test+差异基因对比的方法,将结直肠癌样本和其他癌症样本数据采用T-test方法粗筛,随后将结直癌特征基因列表与其他癌症基因列表进行对比筛选。第二层采用Fold-change方法剔除无关基因。第三层采用基于邻域粗糙集的属性优化算法并对基因列表进行最终的精选,进一步剔除冗余基因。最后结合GEO数据库中癌症数据集进行验证,结果显示该算法取得了利用较少基因个数实现较高分类准确率的效果。(2)基于结直肠癌患者全基因组数据,结合T-F-邻域粗糙集特征选择算法,找到与患者预后密切相关的特征基因集。随后采用RUSBoost抽样算法解决数据分类不平衡问题,同时从位置更新的角度改进灰狼优化算法,利用其对支持向量机(SVM)参数进行寻优。最后构建基于支持向量机的预后模型,并分别使用随机森林算法和K近邻算法构建预后模型进行对照比较。(3)基于结直肠癌患者的临床数据,构造了对照实验。以患者的临床特征信息作为特征集,分别使用同样的三种分类算法构建相应的预后模型,结果显示基于支持向量机的模型效果最佳。同时通过对比分类结果得出,相对于临床信息,本文构建的基于特征基因集的预后模型拥有更高的分类准确率和AUC值,可以更好的为医务工作者提供划分危险等级的理论依据,以便于为患者提供更具针对性的治疗方案,有效提高患者预后情况。
其他文献
全面预算管理是当下信息化社会中企业广泛应用的一种管理模式,可以帮助企业优化绩效考评体系、增强企业内部控制、改善企业内各项资源分配问题。通过应用恰当的预算编制方法,统计各部门的财务及非财务资源耗用情况以编制预算目标,由此帮助企业明确发展的长期目标,督促部门将资源耗费控制在预算目标范围内,帮助企业提高资源利用率并增强长期运营能力。此外将财务指标及非财务指标融入企业绩效考核评价体系,并调整企业的激励机制
随着大数据和教育信息化的发展,在线学习平台使用规模日趋扩大,学习者与在线平台的交互过程中产生大量的行为数据,通过对这些行为数据进行挖掘分析,能够更加了解学生的在线学习情况、发现学生学习规律等,这将有助于对学生在学习过程中进行实时干预、针对性指导,从而达到个性化培养的目标。因此,本文利用学生在线学习平台产生的学习行为数据进行学生成绩预测研究,达到对学生学习成绩提前干预的目的,具有一定的现实意义和学术
随着科技的进步与发展,人们的生活节奏越来越快,许多人心理出现了亚健康状态,每年因为抑郁而自杀的人也逐渐变多。目前许多学校已经开始重视学生的心理健康问题,但学生数量远远大于心理咨询老师数量,校外心理辅导机构大多价格昂贵且鱼龙混杂,很难对学生进行及时有效的心理疏导。随着社交媒体的发展与大数据时代的到来,关于情感分析的研究使得私人情感疏导程序的实现变为可能。如果能及时识别用户的情绪,那么就可以在情绪超过
图像分割是计算机视觉重点研究领域之一,作为图像后续处理过程中的重要环节具有举足轻重的作用;其中基于参数活动轮廓模型和基于几何活动轮廓模型图像分割方法受到诸多学者的青睐。近年来,随着基于活动轮廓模型图像分割方法研究的不断深入,其应用范围和领域也有了更进一步的扩展。本文对活动轮廓模型在图像分割中的应用算法进行了较为深入的研究,主要研究内容和创新点包括:(1)针对传统Snake模型算法对原始目标图像噪声
阅读是人们认识世界,增长知识的有效途径。我国的全民阅读活动由中宣部发起,已经上升至国家战略层面,推动全民化阅读有利于增强我国的国民素质,推动社会的发展。阅读大数据平台作为分析读者阅读行为数据的重要方式,能够掌握读者的借阅和阅读情况,是了解用户潜在需求,提升图书馆服务能力的有效手段。随着科技和自动化技术的发展,图书馆也迈入了数据大流通时代。但是目前各图书馆之间基本采取“自治”的业务处理方式,不同馆间
AR技术(Augmented Reality)致力于将虚拟物体叠加到真实场景中实现虚实交互。该技术属于多学科交叉融合的结果,其中虚拟物体与现实场景叠合,需考虑两者在融合中的几何外观配准问题;虚拟物体与用户交互,需考虑真实场景中目标实时跟踪问题,这也是AR技术的核心。传统配准与跟踪系统主要依赖辅助设备并且算法过于复杂,严重制约了 AR技术的广泛应用。本文研究基于GPU(Graphics Proces
心血管疾病作为近三十年来死亡率最高的疾病,逐渐被人们关注,目前大部分研究停留在治疗方面,虽然心血管疾病的治疗水平日益升高,但与之同时也要加强预防工作。随着大数据分析的快速发展,本文针对心血管疾病数据进行研究分析。本研究数据来源于和鲸社区,数据集包括年龄、性别、收缩压、舒张压等特征,对收集到的数据变量进行分析并合并整理,然后进行数据清洗,剔除异常值,最终纳入52496例患者数据作为研究对象。先对研究
随着生态环境被破坏,种群多样性也随之遭到了破坏,但与此同时人类对资源的需求却在不断增加,有效的生物资源管理策略就显得尤为重要。种群动力学中的相关成果是制定生物资源管理策略的主要依据之一,因此对种群动力学模型进行研究具有一定的实际意义。在研究单种群模型的基础上,本文主要研究瞬时与非瞬时脉冲收获对系统的影响。运用脉冲微分方程相关理论,建立了新的单种群模型及捕食模型,并对所建模型进行分析,最后通过数值模
生物数学是生物学和数学相结合的一门新起的学科,生物数学通过一个多世纪发展以来,他发展出了许多新的分支,例如研究传染病发展过程和传播规律的流行病动力学,研究生态学中种群与环境之间相互作用以及生态学中种群之间相互作用的种群动力学等。但是不管多复杂的模型都是建立在单种群模型基础上的。单种群模型是发展和研究多种群相互作用,复杂网络模型以及生命科学领域各个复杂系统的基石。单种群模型能够精准的刻画生物现象以及
在线社交网络中的异常账号检测是当前数字经济中发展中的急需解决的关键问题之一。异常账号往往通过不良的互联网行为严重影响在线社交网络本身的用户体验以及社会信用体系。当前在线社交网络的异常账号检测主要分为有监督检测,半监督检测和无监督检测三种方案。有监督检测需要提前训练分类器,很难对未知行为进行检测;半监督检测由于无法纠正自身的错误,导致检测效果非常不稳定;基于图结构的无监督检测方案可能是更有前途的异常