【摘 要】
:
转录组和甲基化组基因序列是受遗传信息和环境因素影响的基因组数据的两个主要来源,已被广泛用作疾病诊断和预后的生物标志物。现如今,转录组和甲基化组分析技术可以检测到人类基因组中数千万甚至上百万条基因的状态,但受样本数量的限制,“大P小N”的模式使得转录组数据难以应用流行的分类模型。传统的机器学习方法,主要是依赖于特征选择的能力,而深度学习模型需要大量的数据,迁移学习的方法大部分被应用于图像数据。针对这
论文部分内容阅读
转录组和甲基化组基因序列是受遗传信息和环境因素影响的基因组数据的两个主要来源,已被广泛用作疾病诊断和预后的生物标志物。现如今,转录组和甲基化组分析技术可以检测到人类基因组中数千万甚至上百万条基因的状态,但受样本数量的限制,“大P小N”的模式使得转录组数据难以应用流行的分类模型。传统的机器学习方法,主要是依赖于特征选择的能力,而深度学习模型需要大量的数据,迁移学习的方法大部分被应用于图像数据。针对这一研究现状,本文提出了一种基于原始基因序列,利用小型卷积神经网络构造特征的特征构造方法,并结合传统的机器学习方法,解决在仅使用特征粗选方法或者随机挑选特征的前提下,进一步提高分类精度的问题。在本研究中,我们定制了一个小型卷积神经网络。通过卷积神经网络和原始特征构建了少量的新的特征数据。并在构建的特征的基础上进行特征选择和分类实验。针对各特征层的数据进行了相关性分析,结果表明,卷积层特征的差异表达更加明显。更重要的是,我们通过实验证实了特征构造方法的有效性,通过使用相同的原始特征以及相同的特征选择算法(包括T-Rank,W-Rank,Mc Two),实验结果表明,经过卷积神经网络构造的新特征能够取得优于原始特征的效果,无论是哪一种特征选择方法,构造特征都能提升准确率。此外我们还提出了一种简易的特征选择方法,结合特征构造能够进一步提升准确率。为了进一步探索特征选择方法,我们使用Mc One、T-Rank、W-Rank、Pearson、Sepearman和随机特征选择方法来探索使用哪些特征进行特征构建,以获得更理想的结果。实验表明,利用T-Rank选择特征进行特征构建取得了最理想的效果。令人惊讶的是,即使特征是随机选择的,它们也能比直接使用原始特征获得更高的准确性。而且,特征构造的方法,拥有与原始数据相近的稳定性。为了实验更加全面和严谨,针对不同评价指标和不同的分类器均进行了分类性能的分析,结果表明特征构造方法具有优于原始特征的分类效果。
其他文献
近年来,随着我国交通运输业和基础设施建设的高速发展,大量隧道工程需要在高海拔、高寒地区修建,受冻融循环作用,隧道冻害问题日益严峻,特别是穿越富含地下水、孔隙发育的红砂岩地区的隧道,围岩在反复冻融下产生损伤,影响隧道稳定性。本文以徽州3#红砂岩隧道为依托工程,采用室内冻融试验、岩石常规三轴试验、SEM电镜扫描及数值模拟等方法,探究不同冻融条件和不同围压下红砂岩物理力学特性变化规律及隧道围岩稳定性受冻
毫无疑问,在斜拉桥领域,中国是最先进的国家之一。在过去的70年里,中国已经修建了20多座主跨从600米到1088米的大跨度斜拉桥,全国已经设计了数百座这样的桥梁,它们通常用于中大跨度的桥梁。由于这种类型的桥梁高效易行、造价相对经济、施工速度快、外观优美,斜拉桥成为最令人向往的桥梁系统之一。当拉索失效(断裂)时,拉索断裂可能会将威胁转化为灾难,因为拉索处于失效情况下,存在发生连续倒塌的风险,这对斜拉
目的:本文运用循证医学的方法分析IA期宫颈腺癌行宫颈锥切术对比子宫切除术的复发率、生存率,宫颈锥切术的病灶残留情况及妊娠结局等,评估宫颈锥切术的安全性及其保留生育能力的有效性,为希望保留生育能力的早期宫颈腺癌患者的治疗方案选择提供临床依据。方法:通过计算机检索1995年1月至2020年12月发表的IA期宫颈腺癌相关文献,检索Pubmed、Medline、Cochrane Library、Embas
玉米黄呆蓟马Anaphothrips obscurus(Müller)是缨翅目Thysanoptera蓟马科Thripidae蓟马亚科Thripinae呆蓟马属的物种,在世界范围内广泛分布。该虫在谷类作物上取食繁殖,是中国玉米上的主要害虫之一,会导致植物叶片出现银斑、变形等症状,造成经济损失。本研究采用了来自3个国家(中国、加拿大、印度)共16个省份的玉米黄呆蓟马,搜集并提取了共151条玉米黄呆蓟
神经内分泌肿瘤(Neuroendocrine Neoplasm,NENs)是一种相对罕见且高度异质的肿瘤。虽然对其生物学行为及临床诊治的探索已逾百年,但对其发病机制尚不十分明确。而且NENs的症状和体征不典型临床表现多样,所以大部分N ENs患者发现均在晚期,诊断时已局部扩散和远处转移丧失了根治的机会。在神经内分泌肿瘤的辅助病理学检查中CgA是最常用最有效的肿瘤标志物,用于指导治疗、评估疗效。当血
目的:本实验通过对睡眠呼吸障碍(Sleep-disordered breathing,SDB)儿童行睡眠血氧饱和度监测、血清25(OH)D含量检测及Conners’简明症状问卷调查,分析SDB儿童睡眠血氧饱和度降低严重程度与血清25(OH)D含量之间的关系,研究SDB儿童睡眠中血氧饱和度降低与行为问题风险的相关性,旨在为儿童SDB和注意力缺陷多动障碍(Attention deficit and h
目的:乳腺疾病患者乳头溢液的出现具有指标性意义,可因乳腺的良性疾病,也可是乳腺导管发生了癌变而表现出最早的临床症状。为了解决目前临床上没有对以乳头溢液为主诉的就诊患者针对性的检测手段来进行评估乳腺疾病的良恶性,提高检测的特异性,以减少对患者非必要进行的乳腺切除手术。我们设计了一个基于表面增强拉曼光谱技术的新型靶向拉曼探针技术应用于临床就诊患者,体外检测乳头溢液中癌胚抗原(Carcinoembryo
研究目的:收集宫颈粘液腺癌患者临床资料,回顾性分析患者的临床表现、辅助检查、病理结果和治疗方案,探讨该病的预后影响因素,以期加深临床医师对该病的认识,为诊疗过程提供参考。研究方法:收集2010年1月~2020年10月吉林大学第二医院手术标本病理检查确诊为宫颈粘液腺癌的病例资料共39例进行回顾性分析,分析患者临床表现、辅助检查、病理结果、治疗方法、预后影响因素。采用SPSS23.0软件对统计数据进行
目的:采用Meta分析的方法综合评价近十年我国女性卵巢早衰发病的危险因素,并得出各因素相关强度,为卵巢早衰的预防提供相关线索。方法:通过计算机检索Pubmed、Web of science、Embase、Cochrane Library、中国知网数据库(CNKI)、中国生物医学文献数据库(CBM)等数据库,收集2011年1月至2020年12月已发表的研究内容为中国女性卵巢早衰发病的危险因素、研究类
背景:宫颈癌是发生在宫颈上皮的一系列临床确定病变的终末期,其演变进展与子宫颈上皮内瘤变密切相关。宫颈上皮内瘤变尤其是高级别上皮内病变的诊治对于控制病情发展、预防宫颈癌发生意义重大。目前,相关指南均推荐子宫颈锥形切除术作为治疗HSIL首选术式。锥切术在一定程度上可以起到SIL病灶切除和HPV病毒清除的作用,但即使治疗后,依然有10%-53%的女性表现为疾病持续或复发,远期发展为宫颈癌的风险也比正常人