癌症基因图谱数据的特征选择与多分类研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:linuxcici
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对健康重视程度的日益提高,人们对于疾病,尤其是癌症的预防与检测的需求也随之增大,在信息技术的支持下,癌症基因图谱计划收集了多种癌症的基因图谱数据,并期望通过基因数据找到癌症检测的方法.特征选择作为高维数据处理中至关重要的一步,对于后续的变量解释和模型拟合效果有较大影响,本文选取癌症基因图谱中的部分数据,对乳腺癌、结肠腺癌、肾透明细胞癌、肺腺癌及前列腺癌共5种癌症病人的基因数据进行分析.本文首先应用随机森林算法对特征进行评分,根据不同的特征累计贡献率得到了 19个不同的特征子集;然后在每个特征子集上应用基于双邻域删除冗余特征算法(ERFTN)对冗余特征进行删减;最后应用关于聚类和分类的变量选择算法(VSCC)消除特征之间的多重共线性,通过以上三步对原有数据连续进行了三次降维处理,得到净化后的可应用于分类模型的19个被选特征子集.依据对不同特征子集在不同多分类模型上得到的指标进行最优子集与最优模型的选择;最终根据不同的特异性与敏感性指标水平给出了三个不同的推荐模型,并给出了识别每种癌症的关键基因,以便用户进行选择和监测.
其他文献
近年来,以机器学习,深度学习等为代表的人工智能技术突飞猛进,这些技术在改变我们生活的同时也使得各种信息爆炸式的增长.如何才能够快速而准确的从大量信息中找到所需要的答案成为相关研究者广泛关注的问题,而开放域问答系统则在这样的背景下应运而生.现阶段的开放域问答技术基本都采用检索-阅读理解交互式框架,但基于这个架构的开放域问答系统仍然存在很多缺陷.例如对阅读理解模型而言,通常是通过预测文章中答案的起始与
学位
青藏高原是世界上海拔最高、面积最大、地质年代最年轻、自然环境最独特的高原,是南极和北极之外的最大淡水储备库,其上星罗密布的湖泊,造就了中国最大、最密集的大型湖泊群和湖泊带。特殊的地理位置使其成为全球气候变化与区域性响应的重要研究对象。本文以青藏高原上149个典型湖泊为研究对象,利用Google Earth Engine平台提取了JRC、ERA5再分析影像资料中1985-2020年的湖泊面积以及气候
学位
在生物医学统计中,对存在删失的超高维数据的研究一直存在困难.基于稀疏性假定,对超高维数据进行特征筛选是至关重要的.本文采用了多种特征筛选的方法,对生存时间的预测从简单线性加速失效模型扩展到可加模型,提高了预测的准确性和可解释性.本文所用数据来自GEO数据库中的弥漫大B细胞淋巴瘤(DLBCL)有关研究,该数据共包含414位患者样本.研究对414位患者分别进行了基因表达谱分析,得到基因特征54675个
学位
随着科学技术的飞速发展,雷达设备、通信设备、强力电磁干扰设备等的广泛使用,种类繁多、数量庞大、功能复杂的电磁信号充斥于战场空间中,战场电磁辐射能量由弱变强,频谱由窄变宽,电磁环境趋于复杂,这对处于电磁环境中的电磁设备和人员安全造成很大的影响,因此需要对其复杂度进行评估研究从而采取对应措施来保障设备完好和人员安全。复杂电磁环境信号具有显著的非线性性质,传统的线性信号处理技术对其的应用效果不佳,而数学
学位
空气质量指数是定量描述空气质量状况的重要指标,建立一个空气质量指数区间预测模型能够支持相关部门发布空气污染的防治措施,做好公共卫生防护工作,也因此有助于避免空气污染物浓度超标所带来的健康威胁。本文提出了一种基于变分模态分解(VMD)及和声搜索算法(HS)的支持向量回归(SVR)比例系数法区间预测模型。构造该模型的主要过程为:(1)引入VMD分解技术,通过选定不同的分量个数K值对空气质量指数序列数据
学位
疟疾是雌性按蚊叮咬传播疟原虫而引起的蚊媒血液病,广泛分布于热带、亚热带和温带的90多个国家和地区,是严重危害人类健康的寄生虫病之一。对疟疾感染细胞的精确检测是后续治疗的前提。镜检是疟疾检测的“金标准”,检测结果准确但是耗时较长而且检测结果的可靠性取决于检测人员的专业水平。引入深度学习辅助甚至代替人工镜检不仅可以在快速诊断的同时保证准确性,而且还可以节省大量诊断所用的资金用以疟疾的防控。YOLO V
学位
近年来,许多基于手工设计卷积神经网络(CNN)的方法在自动视网膜血管分割中取得了良好的效果。然而,这些CNN在复杂眼底图像中捕捉视网膜血管方面仍受到限制。为了提高其分割性能,这些CNN趋向于具有较多的模型参数,这可能会导致模型过拟合和计算复杂度较高。此外,手工设计有竞争力的CNN模型非常耗时,且要求设计人员具备大量的领域经验知识。为了解决上述问题,本文提出了一种新颖的神经架构搜索方法或者自动化设计
学位
智能算法在眼科视光学中的应用非常广泛,但关于检测活体共聚焦图像睑板腺功能性障碍的技术很少,尤其关于深度学习辅助诊断其疾病类型的技术还未出现。因此,本课题研究应用一:提供了一种深度学习算法来区分睑板腺功能性障碍图像特征属于腺泡腔阻塞、腺体萎缩还是腺体导管正常。由于眼底屈光介质浑浊,导致光学相干断层扫描图像分辨率差,图像模糊不清,散射问题严重,而提高这类眼底图像质量的技术还尚不成熟。因此,本课题研究应
学位
随着激光技术的快速发展,强激光与物质相互作用产生了许多新奇的非线性光学现象,其中就包括高次谐波产生。近年来,高次谐波已成为人们获得孤立阿秒脉冲的重要途经。阿秒脉冲的出现为实时观测和操控超快过程提供了可能。目前,利用阿秒瞬态吸收光谱来探测电子动力学过程已成为了一种重要的研究方法。本文利用亚飞秒激光诱导He原子、碱金属Na原子和Cs原子辐射高次谐波,探究其瞬态吸收光谱结构。在研究结果中观测到了原子产生
学位
随着社会经济的不断发展,信用违约、欺诈等情况逐渐增多,对稳定市场经济与金融带来很大的影响。研究信用风险评估对金融市场来说可以识别借款者的信用风险,判断其是否具备还款的能力,从而减少不良的借贷行为,稳定市场经济;对金融机构来说可以规避可识别的风险,合理利用已有资金,从而提高资金收入、促进机构发展。为建立分类准确的信用风险评估模型,本文从数据特征和类别不平衡两方面考虑,利用集成分类器XGBoost对预
学位