【摘 要】
:
利用微阵列技术进行癌症样本数据分析是当前生物信息领域的一个热点研究问题。微阵列技术能够测量基因表达水平,这对癌症早期表现不显著的患者,能够较为准确地从基因表达水平上判断出来;另外,结合机器学习模型,能够有效识别哪些基因在癌症中是重要基因,这给医学研究人员获取细胞癌变内部机理的重要途径。本文针对癌症数据集进行重要基因提取,并做样本分类,需要对数据做预处理、特征提取和分类等处理步骤。数据做预处理是将原
论文部分内容阅读
利用微阵列技术进行癌症样本数据分析是当前生物信息领域的一个热点研究问题。微阵列技术能够测量基因表达水平,这对癌症早期表现不显著的患者,能够较为准确地从基因表达水平上判断出来;另外,结合机器学习模型,能够有效识别哪些基因在癌症中是重要基因,这给医学研究人员获取细胞癌变内部机理的重要途径。本文针对癌症数据集进行重要基因提取,并做样本分类,需要对数据做预处理、特征提取和分类等处理步骤。数据做预处理是将原始数据中大量噪声尽可能去除,并做归一化处理,使得数据符合正态分布。基因芯片数据是高维度低样本的数据,在上万个基因中通常起分类作用的关键基因只有几十个,而样本数只有一百个左右,直接用于分类器训练会极大增加分类模型的复杂度,造成过拟合现象。因此需要增加特征提取步骤,提取出关键基因,降低数据特征数量,减少分类器训练时间和提高分类器分类效果。最后是分类步骤,构建癌症样本分类器,因不同分类算法对不同数据集的分类效果也会不同,需要进一步做实验对比。本文的主要研究内容集中在特征提取和分类阶段,基于Choquet模糊积分模型,结合特征提取算法,完成癌症样本分类任务。Choquet模糊积分模型能够很好地描述特征间的交互作用,因此非常适合应用在与特征基因相关的癌症样本分类的问题中。传统的L1/2正则化能快速完成特征提取,但未考虑特征间的关系。本文在L1/2正则化特征提取的基础上,提出一种基于Choquet模糊积分和L1/2正则化的包裹式特征提取算法FI-L1/2,既有L1/2的速度优势,同时又可以将基因间的交互作用融入模型。算法采用Matlab语言开发,数据预处理采用Bioconductor工具箱。实验结果表明FI-L1/2算法分类效果要高于传统的L1/2正则化特征提取算法,和近几年国内外研究人员实验情况对比,其中DLBCL、Colon和GLI-85数据集的分类效果明显高于其他研究。在Choquet模糊积分模型求解上,本文提出了两种解法:一种是基于L1/2正则化;另外一种是基于改进的蚁群算法。传统的Choquet模糊积分模型求解是基于遗传算法等软计算方法,搜索效率差,耗时长。在特征提取阶段,不要求模糊测度十分精确,只需要能够提供特征间关系即可,因此采用快速的基于L1/2正则化求解方法更好,在模糊积分模型上添加L1/2范数,将求解问题转化为带约束的求极小值问题。在分类阶段,采用改进的蚁群算法进行求解,算法设计上兼顾局部搜索和全局搜索,允许每一只蚂蚁根据状态转移概率随机选用局部搜索,尽可能地找出更优解(陈嘉杰等,2018)。实验结果表明,模糊积分在特征数量较少时分类效果较好,基于改进的蚁群算法求解的分类效果总的来说优于基于遗传算法,且运行时间明显少于基于遗传算法。
其他文献
在家禽养殖中,定期测量鸡只的体积鸡脚参数等特征参数是评估鸡只健康生长与优质肉鸡选择育种的关键,鸡只的体积与鸡脚参数信息是家禽饲养管理的重要指标,但是目前鸡只体积、鸡脚参数信息的获取多数还停留在传统人工卷尺测量上。为此,本文开展了鸡只体积和鸡脚参数测量方法研究,利用深度摄像头采集鸡只样本并实时监测其体积与鸡脚参数,主要工作如下:(1)构建了基于xtion的鸡只体积和鸡脚参数的数据采集系统。介绍了系统
细菌耐药问题被世界卫生组织评定为一个重大的全球卫生威胁。细菌一般通过染色体突变或者基因水平转移两种方式获取对抗生素的耐药性,其中后者是耐药性传播的主要原因,此过程一般通过转化、结合和转导方式进行,而以噬菌体为主要对象对基因进行转导传播的方式又是细菌基因水平转移的重要方式之一,却总是被忽视。本文通过裂解性噬菌体和溶原性噬菌体两方面对耐药基因水平传播进行评估,在裂解性噬菌体和溶原性噬菌体的基因组上,我
黄梁木(Neolamarckia cadamba)是亚热带和热带地区重要的速生用材树种之一,自然条件下,黄梁木枝条扦插生根较难,导致其不能快速繁殖,影响了在生产上的推广应用。研究发现黄梁木在添加生长素的培养基中可快速生根。为探讨其机理,本论文详细观察了黄梁木不定根的发生过程,利用优化的激光显微切割技术获取了组培苗不定根原基发生过程中3个关键时期的细胞组织,并进行转录组测序,获得了一批相关基因,为遗
近年来,词语向量表达(word vector representation)被广泛地应用于各种自然语言处理(natural language processing,NLP)的下游应用中,如机器翻译、文本分类、情感分析等。高质量的词语向量表达可以使自然语言处理模型更了解语言,进一步提升自然语言处理模型的性能。已有的研究表明,采用知识库或词汇分类体系提供的语义约束,对通过大型语料库训练得到的词语向量表
随着云计算的普及,社会已开始形成往云服务器存储个人数据的风气,从而减少本地的存储开销以及给数据共享带来了便利。然而,将数据存储至云端服务器,也给数据的拥有者带来了不可控性。将数据加密后再存储至云服务器,会使用户对数据的检索造成不便。可搜索加密的提出,既能享受云存储的便利,又能保证数据的安全。支持等值测试的可搜索公钥加密是可搜索加密体系的一个分支,支持在不解密的情况下测试两组由不同公钥加密所得的密文
柑橘是我国的一种重要经济作物。目前,我国柑橘果树的主要植保方式为人工地面植保和地面植保机植保,果树的冠层叶面施药效果较差,叶面难以吸收养分,效率低并且耗费劳动力。近些年随着无人机的快速发展,利用无人机精准植保也逐渐开始推广,无人机因其质量小、机动性好、可灵活调整飞行速度、施药高度可控等优点广受欢迎。由于无人机空中施药是高处向下自然喷洒,既能喷洒到果树冠层叶面,药物还能向下流淌对底层叶片进行施药,同
近年来,随着云计算技术和云存储服务的快速发展,越来越多的用户选择将数据外包给公开的云服务器。然而,公开的云服务器作为第三方服务提供商是不可完全信赖的。为了保证用户数据和隐私,用户选择加密明文数据然后外包到公开云服务器存储。虽然外包密文数据极大地便利了用户,但是在密文数据下明文数据检索技术就不会起作用。因此可搜索加密技术便应运而生。在传统基于关键词集的可搜索对称加密技术SSE(Searchable
沙门菌是自然界中分布广泛的一种人兽共患病原菌,常寄生于人和动物肠道内,在污染的蛋奶及其制品、肉类,食品和污水等外环境中也十分常见。沙门菌可引起人类伤寒、副伤寒和食物中毒、胃肠炎、败血症和局部感染等许多疾病。据统计,我国细菌性食物中毒中70%~80%是由沙门菌引起的,其中肉鸡制品是沙门菌食物中毒的主要原因之一。肉鸡在屠宰的过程中容易受到沙门菌污染,从而在后续零售及消费的环节中威胁着人类的健康。定量风
UNIX服务器作为一种商业化计算设备,被广泛应用于许多大型传统企业核心的数据或业务环境中。通常各类UNIX产品都是由操作系统和硬件紧密的整合于一体,作为一个相对独立、可靠性和稳定高的环境平台为大型企业的关键信息处理领域上发挥着重大的作用。随着计算机信息科学与互联网应用的发展,服务器设备环境平台的提供稳定计算能力和不中断的服务显得越来越重要。对于企业核心运行的平台设备,维护设备的硬件和软件环境稳定是
荔枝作为岭南特色水果,素有“日啖荔枝三百颗,不辞长作岭南人”的佳句,而荔枝的生产却极其费时费力,尤其是荔枝采摘,极大的耗费劳动力。随着农村人口向城市转移,大量的劳动力流入城市,导致种植业出现严重的劳动力短缺,而荔枝成熟期十分简短,加之岭南地区炎热多雨,如不能及时采摘将功亏一篑,造成严重的经济损失。荔枝采摘机器人能有效解决劳动力短缺、大规模种植等问题,对降低荔枝生产成本,缓解农业人口流失带来的生产力