基于RCV-GroupLasso的基因群筛选——以厦门大学红壳皱纹盘鲍鱼基因数据为例

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ln466985609
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
鲍鱼以其丰富而又高价值的营养而著称,但目前我们国家的野生鲍鱼资源几乎被捕获殆尽,就连海产品的养殖业也受到了品种逐渐退化的威胁,所以改良鲍鱼的品种、培育优良鲍鱼至关重要。因而研究影响鲍鱼性状表现的基因便是选育优良鲍鱼必要之举。本文研究数据是由厦门大学海洋底栖生物实验室提供的红壳皱纹盘鲍鱼基因数据,由于生物的性状表现型通常是由基因群而非单个基因控制的,这启示我们考虑对基因变量进行聚类的必要性。而本文主要研究影响红壳皱纹盘鲍鱼热应激脱落时间的基因群,旨在通过使用前沿且具有创新性的变量筛选方法,以鲍鱼热应激脱落时间作为典型性状,分析鲍鱼基因对性状的影响,从而对鲍鱼品种选育提供重要的参考。基因变量筛选在生物学研究中具有重大意义,而基因等生物学数据作为超高维数据,其数据特点是变量数目p很大,而样本数量n相对较小,并且超高维变量往往会导致变量之间的伪相关(Spurious Correlation),这一特点决定了传统的回归模型不适合研究该种数据类型,比如经典的Group Lasso方法会低估误差项水平,导致筛选出过多的无关变量。因此本文结合了 Fan(2012)的RCV(Refitted cross-validation)方法和 Group Lasso 的方法,形成 RCV-GroupLasso 方法,该方法首先将数据随机分为两部分:在第一阶段,用变量筛选模型对两部分的数据分别进行变量的选择;第二阶段,将第一阶段中第一部分的筛选出的变量集合,运用到第二部分的数据当中,并据此计算方差,然后反过来将第一步中第二部分数据筛选的变量结合,运用到第一部分数据中,并计算出方差,最终取两个方差的期望值作为模型的方差。以此得到精确的AIC,从而选择更加精确的模型。最终筛选出影响鲍鱼性状的重要基因。本文先通过模拟对比了传统的Group Lasso方法和RCV-GroupLasso的方法,得出RCV-GroupLasso在解决变量之间伪相关性(Spurious Correlation)有很好的效果。并在参考Buhlmann(2012)关于超高维数据类筛选步骤与方法的基础上,将原始数据通过 CSIS(Conditional Sure Independence Screening)方法进行粗筛选,其次对粗筛选后的位点信息进行聚类,分别再对聚出的类使用RCV-GroupLasso进行类筛选,最终根据筛选结果分析得出鲍鱼基因群对热应激脱落时间的影响。并由此可以得到影响红壳皱纹盘鲍鱼热应激脱落时间的重要基因群,为生物学研究节省了进一步基因研究的成本,帮助选育更加优良的红壳皱纹盘鲍鱼。
其他文献
《海南自由贸易港建设总体方案》与《中华人民共和国海南自由贸易港法(草案)》都分别提出,加快发展海南自由贸易港,实现国际资本在港内外的自由便捷流通。当前,借助上海建立的自由贸易账户体系运行多年的经验,海南自由贸易港的自由贸易账户得以快速铺开,但是其监管主体和风控机制等都与未来海南自由贸易港的定位不相匹配。同时,海南相关行政机构分块监管,各自为政,本外币跨境流动监管存在两套路径,相关的立法也存在真空和
学位
国内外关于基金经理的研究相当丰富,从学历、性别、专业度等背景指标到风格分析评价指标如风格系数、换手率,较为新颖的指标如过度自信等对基金经理进行分析,但针对基金经理发布的文本数据通过基于自然语言处理技术进行分析的文献相对较少,同时相关的专业领域词典也相对稀缺。本文选取中国09年至19年全市场基金定期报告中的市场展望文本数据共计30万条,综合使用SO-PMI、Word2vec算法和人工筛选等方法构建针
学位
近年来,数字经济在全球范围内异军突起,已经深刻辐射到全球经济发展的多个层面,其以独有的互联网发展模式形塑了国际经济发展的新样态,也在全球范围内掀起了税收管辖权再分配与国际税制实质性改革的狂澜。由于始终未解决相应税收规则缺位的难题,如何应对经济数字化带来的国际税收挑战至今仍然是国际社会关注与讨论的焦点。为此,OECD于2019年提出建立一个关于新的联结度与利润分配规则的“统一方法”,以此作为划分国际
学位
目前,银行在开发的信用评分模型时,通常只从被批准的申请者里面获取训练样本,而把贷款审批流程中被拒绝的申请者排除在外。然而,在实际应用中,信用评分模型面对的是全体消费信贷申请者,这一流程会导致获取的样本与真实总体之间存在样本偏差,导致有偏的参数估计。因此必须要考虑拒绝推断,将拒绝样本纳入到评分模型的建立流程中来校正这一偏差,进一步提升评分模型的泛化性能。在进行拒绝推断时,拒绝样本中存在着被错误分类为
学位
分时租赁汽车作为现代交通工具在共享经济领域异军突起的出行新选择,一经问世便广受消费者的青睐与喜爱。现代共享经济模式的核心是所有权与使用权的“两权分置”,分时租赁汽车也不例外。分时租赁汽车平台作为汽车的所有人或管理人将车辆以短时租赁的方式出租给账号注册人,由后者行使“短时”使用权以供运行之用。分时租赁汽车作为新能源汽车的典范,在一定程度上契合我国的绿色发展理念,受到了国家的重视与扶持,国内分时租赁汽
学位
在金融市场极为动荡的2020年,比特币价格创下历史新高,年内涨幅超过三倍,远远超出传统金融资产的回报率。它高回报、高波动的特点使其成为市场关注的重点。研究比特币和传统金融资产的波动溢出效应,既可以增加对比特币市场的认知,也能对投资组合和风险管理提供有价值的信息。本文通过构建t分布下的六元BEKK-GARCH模型,对2013年至2020年比特币和股票、黄金、能源、美元指数、债券五种金融资产之间的波动
学位
T+1交收机制是我国区别于国际上其他资本市场的一个特殊之处。自该制度确立以来,对我国资本市场造成的影响究竟是利还是弊,一直是学术界与实务界关注的焦点。因此,在中国资本市场逐渐进步、日趋成熟的时代背景下,A股市场是否受到T+1机制掣肘是本文探究的重点。本文从理论上分析了 T+1交收机制下股票市场投资者买卖行为的不平衡性,该不平衡性将影响股票价格形成机制及资产流动性,进而影响我国A股市场的价格表现和资
学位
白酒是我国的重要产业,在经济与社会生活中,占有重要的地位。白酒的消费具有社交性和礼品性,使其具有独特的消费特性。白酒行业往往呈现出价越高越好卖的趋势,这在高端白酒中尤为明显。研究消费者对白酒的需求偏好,可以为企业抢占市场提供指引,也可以帮助市场管理部门进行有效的市场管理,促进白酒行业的健康发展。本文研究高端白酒的需求特性,包括以茅台、五粮液等为代表的优等高端白酒和以洋河、剑南春等为代表的次高端白酒
学位
配对交易通过价差均值回复特征赚取差价,其有效性得到国内外一致认可。对于配对交易,最重要的就是拟合两种资产的价差序列,判断价差序列是怎样波动的,从而能够提前预测价差的走势,做出套利行为。对价差序列的描述,一直以来国外学者做了大量的研究,反观国内对价差序列的描述还处于探索阶段,因此本文将重点研究国内股票的统计套利,探究股票资产间价差的波动形式,将统计套利策略应用于中国股票市场并探究其有效性。另一方面,
学位
随着互联网领域的技术进步与飞速发展,数据的存在形式呈现多样化,其中文本数据作为最常见的数据形式之一,包含着人们传递和接收的信息。在日常生活中,短文本形式多样且应用广泛,常出现于标题分类和舆情分析等场景。短文本分类是自然语言处理中十分重要的任务之一,作为典型短文本形式之一的标题型短文本,其特点在于篇幅极短,但通常是对应全文的总结,对这种标题型短文本数据分类可以帮助人们高效率地获取短文本信息并快速理解
学位