【摘 要】
:
现代生物技术的高速发展使得生物组学的数据量飞速增长,并且随着生物组学数据的公开发布,越来越多的研究人员加入这一研究领域。生物组学的研究可应用于多个方面的疾病,例如各种癌症。转录组和甲基化组是两种主要的生物组学类型,其中转录组测量所有转录的表达,而甲基化组描述整个基因组的胞嘧啶甲基化水平。在一些研究中,转录组和甲基化组的特征维度高达几万,但样本数量有限,这就形成了“大p小n”范式。本文聚焦于“大p小
论文部分内容阅读
现代生物技术的高速发展使得生物组学的数据量飞速增长,并且随着生物组学数据的公开发布,越来越多的研究人员加入这一研究领域。生物组学的研究可应用于多个方面的疾病,例如各种癌症。转录组和甲基化组是两种主要的生物组学类型,其中转录组测量所有转录的表达,而甲基化组描述整个基因组的胞嘧啶甲基化水平。在一些研究中,转录组和甲基化组的特征维度高达几万,但样本数量有限,这就形成了“大p小n”范式。本文聚焦于“大p小n”范式的生物组学问题,提出一种基于孪生网络的生物组学数据特征构造算法,将原始特征映射到一个使得类内距离最小、类间距离最大的新空间,并命名该算法为SiaCo算法。为解决“大p小n”范式带来的负面影响,在算法流程中加入特征选择,对原始的高维特征进行筛选,排除冗余和噪声数据对深度学习模型的影响。虽然经过特征选择和特征构造使得新特征的维度降低到了数百个,但是特征的个数与分类的效果和效率并不成正比,将全部特征用于分类会导致最终的分类精度下降,因此采用增量特征选择策略,从经过特征工程处理后的构造特征中选择一个最优特征子集,以期达到更高的分类精度。考虑到生物组学样本的数量有限,本文采取3折交叉验证的策略,用于解决特征的分类问题。本文提出一种更加简单的损失函数计算方式,在不降低SiaCo模型性能的前提下,花费更少的训练时间。本文利用转录组和甲基化组数据集进行SiaCo算法的综合评价。为给SiaCo实验流程选取一组固定的参数,使得SiaCo算法能够通用于转录组和甲基化组,降低非专业人员对本算法的使用门槛,提供更便捷的算法应用,本文设计了6个参数调整实验。为选择与SiaCo网络更加匹配的特征选择方法,本文对比了包括T检验、卡方检验、随机森林、最大信息系数等共六种算法特征选择算法,并确定最大信息系数为最佳匹配。本文还考虑了支持向量机、贝叶斯网络、梯度提升决策树、极端梯度提升、轻型梯度提升机和极限学习机等十一个分类算法与构造特征的匹配程度,并对学习率、特征初筛数目、SiaCo子网络的设计结构、损失函数等内容进行实验探讨,以获得SiaCo算法的最佳表现。本文通过比较原始特征和构造特征的性能来说明SiaCo算法的构造效果,并设计分类效果对比和差异表达分析两个实验,从组合特征和单个特征两个角度进行说明。对生物组学数据常见的批次效应问题进行实验,并且进一步分析增量特征选择策略相较于随机选择方法的效果变化,以说明SiaCo模型的鲁棒性。为从多方面验证SiaCo算法的性能,本文还尝试在多分类任务和非生物组学数据集上进行实验,比较原始特征和构造特征的分类结果。实验结果表明,与原始特征相比,经SiaCo算法构造的新特征在二分类问题中达到了更高的分类精度,且对于多分类和非生物组学任务,SiaCo算法的改进效果更佳。与之相比,单个SiaCo特征并没有表现出比原始特征更显著的类间差异性,这可能是因为孪生网络优化了SiaCo特征的整体性能,而不是单个特征的识别能力。
其他文献
钢管混凝土结构具有优异的使用价值而被广泛地应用于各种实际工程中,但随着钢管混凝土构件使用周期的增加和服役环境的变化,其结构耐久性问题变得越来越突出。对服役于严寒和酸雨腐蚀地区的钢管混凝土结构,复杂的环境因素对其力学性能影响较为严重,尤其是长期力学性能,因此,其结构耐久性能更应得到重视。为研究严寒地区酸雨腐蚀对钢管混凝土力学性能的影响,本文对40根不同环境因素作用后的圆钢管混凝土短柱进行轴压试验研究
2021年,上海、深圳等部分省市出现了电量供不应求的局面。蓄冷空调通过负荷侧错峰用电将为调峰做出巨大贡献,是解决此问题的有效手段。水流横掠单冰柱相变传热问题是从蓄冰盘管热交换过程抽象出来的科学问题。已有研究主要集中在温差驱动的自然对流条件下的固/液相变传热方面,忽略了强迫对流对于传热的影响。亟需从理论和实验角度揭示强迫对流条件下融冰传热特性用以指导工程实践。因此,基于非接触测量法构建二维冰柱相界面
近年来,随着存储容量和计算机算力的飞速发展,数字化技术进入了高速发展期。深度学习已经成为机器学习研究中非常重要的领域之一,在计算机视觉领域,尤其是在图像分类场景和目标检测场景中的应用已经取得了巨大的成功。但深度学习模型性能的提升必将导致网络结构复杂度过高、计算量过大、训练时间过长等一系列问题,这对将其部署在算力和存储容量受限的移动设备上造成了很大挑战。为了更好的将深度学习方法应用于移动设备,很多学
随着社会经济增长,人民生活水平提高,建筑物热量需求越来越多,而环境污染问题日益突出。因此需要在现有清洁能源之一的地埋管地源热泵技术使用基础之上,进一步提高地埋管地源热泵效率。地埋管地源热泵效率主要影响因素是地埋管换热器换热量。改变现有地埋管换热器循环工质、增加磁激作用力,开发出一种提高地埋管换热器换热量技术。本文采用数值计算的方法开展磁场作用下单U型地埋管内纳米流体强化传热研究,得到创新研究成果。
<正>十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》明确提出,"完善人民调解、行政调解、司法调解联动工作体系,建立调处化解矛盾纠纷综合机制",对人民调解工作提出了新的明确要求,给人民调解工作赋予了更大的责任,也提供了更广阔的舞台。近年来,阳城县紧紧围绕改革发展稳定大局和党委政府中心工作,着力加强
在水下环境中,悬浮的颗粒会对光造成散射和波长相关的衰减,使水下图像出现颜色失真、成像模糊以及对比度低等问题,影响对水下图像中有用信息的获取,不利于后续图像目标检测、图像分割等高级视觉任务的进行。针对上述问题,国内外研究人员提出了多种水下图像增强算法,但现有算法具有一定的局限性。传统的水下图像增强方法对失真严重的水下图像的增强效果较差,增强后的图像会引入噪声或者出现过度增强,无法获得理想的增强结果,
玻璃纤维锚杆是一种以玻璃纤维筋材为杆体材料的锚杆,具有质量轻、易切割、高抗拉性能、防静电、抗腐蚀性能强等优点。但也存在锚杆短、抗压抗剪能力差、延展性差等缺点,限制了玻璃纤维锚杆在支护工程中的应用。由于玻璃纤维杆体是热固性、强度差的材料,熔接、套筒挤压连接、机械螺纹连接等方式都不适用多节玻璃纤维杆体的连接。因此有必要对杆体连接方法、锚具形式、连接体荷载传递规律等开展研究。基于此,设计三种玻璃纤维杆体
胰腺分割是指从CT扫描图像中标记出胰腺的区域,其作为计算机辅助诊断技术的预步骤,可以用于胰腺的定位、疾病的检测以及手术的计划与安排等,在临床应用方面可以发挥巨大的作用,设计性能良好的胰腺自动分割算法在医学图像分割领域以及计算机辅助诊断领域具有重要的意义。随着卷积神经网络的快速发展,传统的基于手工特征的胰腺分割算法已经被基于卷积神经网络的两阶段算法逐渐取代。尽管基于卷积神经网络的两阶段胰腺自动分割算
随着科技的发展和社会的进步,身份识别的需求越来广泛,而对于身份识别来说,目前主流的解决方案就是面部识别。目前,人脸识别技术已经日臻成熟,其相关的应用也趋于完备,而对于动物面部识别的研究则相对来说较少。动物面部识别在农业方面有着广泛的需求,而猪作为目前养殖最广泛的动物,其面部识别自然就成为了该领域的热点问题。猪脸的整体相似度较高,且由于猪脸长期不清洗,其面部特征也会受到影响,因此,在动物脸部的识别中
针对我国煤炭资源开采引发的水资源短缺、生态环境破坏等现实问题。以神东高强度开采生态脆弱区域为研究对象,采用现场实测、理论分析、数值模拟等技术手段,区划4种生态地质环境类型和10种水-煤赋存结构类型,构建煤炭-水资源-生态环境耦合模型。基于不同生态地质环境类型条件下,分析采煤扰动下地表植被和地下水的时空演变规律,揭示采煤扰动下生态脆弱区水资源与生态环境二者的耦合关系,为神东矿区煤炭开采过程中的水资源