基于重新编码选取特征基因的RNA-seq数据分类

来源 :深圳大学 | 被引量 : 0次 | 上传用户:bbmaju0813
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用micro-RNA-seq或scRNA-seq数据来诊断疾病类型是医学研究的一种有效方法,针对以上测序数据,现已有泊松线性判别分析(PLDA)、负二项线性判别分析(NBLDA)和零膨胀泊松逻辑判别分析(ZIPLDA)等统计分类方法。由于基因表达数量成千上万,而样本只有几十个,在大量的基因里,并不是所有的基因都对分类起作用,基因表达数据中存在着大量的冗余和不相关基因。处理基因表达数据的一种典型方法即选取特征基因,如何发现并选取对样本分类起决定性作用的基因对后续的分类工作至关重要。为了提高分类的准确度,节省运算时间,提高运算效率,有必要去除不相关的基因,检测重要的特征基因。目前广泛使用的方法是BSS/WSS方法,但该方法假设数据服从正态分布,因此可能不适用于micro-RNA-seq和sc RNA-seq数据。针对以上问题,本文提出了一种重新编码类别(ENTC)进而利用斯皮尔曼相关系数选择差异表达基因的方法。我们根据每个类中样本观测值的大小对类内样本的类别号重新编码,在每个类中得到新的类别号编码。通过求每个基因在各个样本片段数与新的类别号的相关系数,选取相关系数较大的基因,从而保证了挑选的基因在类内的差异较小,而在类间差异较大,提高了分类的效率和准确度。同时我们证明了提出的ENTC方法的筛选确定性和秩一致性性质。我们将ENTC方法与现有的选取特征基因的方法进行了比较,模拟显示在多种情况下ENTC方法选取特征基因的准确率较其他方法较高,用于分类的误分类率比其他方法较低。此外,通过分析真实数据,结果也表明ENTC方法优于现有的其他方法。
其他文献
目的 了解大量输血患者病死率及血液检测指标变化情况,探讨大量输血时不同血液制剂的最佳应用比例,为临床总结大量输血患者的输血方案提供理论依据。方法 回顾性分析简阳市人民医院2020年1月至2021年12月共计122例大量输血患者的临床资料,统计并分析其各项血液成分(包括红细胞悬液、血浆、血小板和冷沉淀等成分)的用量情况及输血前后血液检测指标的变化;同时按死亡组与存活组进行对比。结果 输注的血液成分最
期刊
小域估计是抽样调查领域的一个重要研究方向,国计民生中的很多重要问题都需要采用小域估计方法进行研究,如失业率、犯罪率、残疾率等。小域估计起源于国外,其理论及实际应用研究在国外相对较多,在国内较少,滞后于国际先进水平,因此本文对小域估计的理论与应用进行研究。小域估计的理论研究中,系统地总结了小域估计的基本方法。为解决因小域样本量不足而无法由直接估计得到有效的小域估计值问题,可从扩大样本量和改进估计技术
学位
期权作为一种金融衍生品,它发挥着风险管理、套期保值等重要作用,同时期权定价也是学术界讨论的热点问题。而定价的关键就在于刻画期权标的资产价格的运动过程。布朗运动在描述资产价格运动上有悠久的历史,但是研究发现它不能刻画实际市场中的三个典型特征:收益率分布的非正态、收益率波动率时变、市场的杠杆效应。学者们利用纯跳跃的Levy过程来刻画资产价格的运动过程以及对应资产收益率的非正态特征。本文基于纯跳跃的Bi
学位
在过去的二十年中,非线性网络的研究由于其在描述许多实际系统中状态的相互作用方面的适用性而受到了广泛的研究关注,例如疾病传播、计算机病毒传播、社会行为、智能电网系统、互联网通信.最近,学者们致力于研究不同类型的复杂网络,包括马尔可夫切换网络,有向网络,非线性延迟网络,随机网络等等.复杂网络常受到随机环境的干扰,于是研究者们开始重视随机环境下复杂网络的同步问题.为了使随机网络达到同步,设计一种合理的控
学位
随着环保诉求的流行和泛化,以漂绿广告为代表的企业漂绿行为开始大量涌现,在信息不对称的绿色市场、滞后的环境法规和晦涩的绿色信息等因素的共同发酵下,漂绿现象依旧越演越烈。漂绿现象日益普遍,而国内关于企业漂绿行为的社会认知、监管实践与理论研究均严重滞后,关注并研究漂绿行为势在必行。在企业漂绿日益侵犯公众权益的背景下,研究选择从受众的角度验证其是否能够理解与认同现有的漂绿类型,在此基础上探讨其如何识别企业
学位
在大数据时代,互联网上存在大量的包含投资者情感评论的文本数据,如何准确有效地挖掘这些文本的情感信息已成为行为金融领域的一个研究热点。然而,投资者对于股市观点的文本大多具有口语化、表达比较随意、数据冗余等特点,这给投资者情绪量化分析带来巨大的挑战。因此,本文选取东方财富网股吧中的上证指数评论作为研究对象,基于word2vec构建股市情感词典和基于BERT的方法进行投资者情感的量化分析研究。首先,使用
学位
保险作为转移风险的一种手段,是减轻未来可能出现的风险损失的有效方式,因此在经济的发展中它起到了重要的保障作用.但是随着社会经济的不断发展以及社会活动越来越多样化,未来的风险受到许多内外部因素的共同影响,多种因素带来的风险相互交织给保险行业带来了新的挑战.面对复杂的市场环境,保险公司如何有效地对风险进行度量和控制是目前急需解决的问题.对风险进行量化分析时,需要建立相应的数学模型和选取合适的风险度量指
学位
在对带有测量误差的数据进行回归建模时,如果直接分析观测到的数据,忽略测量误差,那么估计结果往往是有偏甚至不相合的。因此,对于这类问题,我们要用相应的测量误差模型来处理。测量误差模型主要有两种:第一种是具有可加结构的一些测量误差模型;第二种是具有相乘结构的一些测量误差模型,我们称之为扭曲测量误差模型。在本文中,我们主要讨论数据带扭曲测量误差条件下的乘积回归模型。本文研究数据带扭曲测量误差条件下乘积回
学位
随着信息技术的快速发展,我们面临越来越多的高维数据分析问题.在高维数据分析中,如果模型中引入过多的无关变量,不仅会影响模型的解释性,还会导致模型的预测效果变差.Lasso方法是变量选择中最流行的方法之一,通过引入L1惩罚项,对估计系数进行一定的压缩,将不重要的变量系数估计值压缩至0,从而达到变量选择的效果.后续提出的非凸惩罚回归方法,SCAD方法和MCP方法,近年来在变量选择中也引起了广泛的关注.
学位
科技创新在经济发展中发挥着重要作用,在不断升级的中美贸易摩擦中,科技领域的争端时有发生。虽然我国已经挤入前20个最具创新的经济体,但我国的科技创新能力的地区差异却非常大,技术创新是经济发展的重要动力,科技创新能力差异过大不利于区域经济协调发展。因此,我们需要对区域科技创新能力进行测算,分析各区域的发展情况及其影响因素,以便更好更快地发展经济。这些问题前人虽有研究,但一般没有考虑地区之间相互的影响及
学位