基于机器学习的肠道微生物对宿主年龄和性别分类的预测

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:ten_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体肠道微生物是一个非常庞大的系统,肠道微生物通过代谢产物和宿主进行信息交换,在人一生的成长和衰老过程中发挥着多种重要功能。肠道微生物群比人体细胞的数量高一个数量级,据计算大约有1014个细胞组成,由于肠道菌群的庞大和复杂性,以及对饮食、地域、疾病的易感性,使得对肠道微生物的定量研究充满了困难,本文主要通过机器学习对人体肠道微生物样本进行定量研究,通过微生物丰度数据建立宿主年龄和性别预测模型,并识别年龄和性别特异性微生物。本文主要内容如下:(1)通过斯皮尔曼相关系数对样本数据集进行降维,对1580种微生物祛除冗余项,留下19种具有代表性的微生物,输入机器学习回归模型。利用肠道微生物丰度数据预测样本的年龄,对预测值用R~2和平均绝对误差评价,在Adaboost、随机森林模型以及Xgboost模型中,随机森林模型效果最好,R~2=0.579,MAE=13.45。利用特征重要性得分识别与宿主年龄高度相关的微生物,识别双歧杆菌和居瘤胃解纤维素菌(Cellulosilyticum),并在百岁老人的样本中发现了和老年人不同的肠道微生物结构,且这种变化不连续。(2)通过机器学习分类模型对样本数据集进行性别分类,本文采用了高斯贝叶斯模型、K-近邻模型、随机森林模型、自适应提升算法以及梯度提升决策树模型构建分类器。其中,随机森林分类模型效果最好,平均准确率达到79.5%。通过调节超参数的变化,对随机森林模型的准确率和F1得分进行检验,确保随机森林分类模型的稳定性。通过特征重要性得分识别对分类模型贡献较大的微生物,在前20种微生物中,有8种微生物属于厚壁菌门,有8种属于拟杆菌门,有3种属于放线菌门,有1种属于疣微菌门。同时,居瘤胃解纤维素菌(Cellulosilyticum)在百岁老人的样本中也发现了两性差异。
其他文献
不平衡数据在日常生活中普遍存在,不平衡数据是指构成数据的各类样本数量之间具有差异的数据。不平衡数据中少数类样本往往含有更重要的信息,对少数类样本错误分类的代价往往较高。但是,传统机器学习分类方法趋向于在少数类样本上产生较低的准确度,不适用于不平衡数据。因此,有效解决不平衡数据分类问题具有重要意义。本文分别从算法层面和数据层面分别提出不平衡数据分类的解决方法,并应用到光伏阵列故障诊断领域。本文主要内
学位
城市物流中,许多企业将自身的物流配送任务外包给第三方物流企业,物流企业为提高行业竞争力和可持续发展,首要的是平衡好经济活动中的环境问题和客户满意度问题。现如今为应对环境污染严重、燃油价格上涨和资源短缺的能源问题,我国政府大力推动电动汽车在城市物流配送中的应用,发展绿色物流,引入污染较小的电动汽车,相对于燃油汽车而言,在一定程度上可以减少碳排放以及噪音污染等问题,但其自身续航时间短、充电时间长以及充
学位
水、能源、粮食是国家重要的战略性基础资源,每种资源的生产利用活动都需要另外两种资源的支持与协调,三种资源的相互依赖形成了资源耦合关系系统,推动耦合关系的协调发展,能够有效减少资源结构性短缺对社会经济发展的制约。长江经济带是我社会经济发展的重要区域,其资源特征表现为粮食产量占全国的比例逐渐减低,水资源、能源总量丰富但时空分布不均,水资源、能源、粮食均处在高质量的产业发展时期。为减少全国范围内的水资源
学位
十九大报告强调,要加快现代化经济体系的建设,优化产业结构,这就要求加快现代服务业的发展水平,尤其是生产性服务业的发展。知识密集型服务业是集数字信息时代高知识、高技术要素所发展形成的产业。该指导意见明确了我国制造业产业升级的发展方向,以知识密集型服务业集聚为基础,提高制造业产品的科技含量,提高制造业竞争力。故本文以中国制造业作为研究目标,深入分析知识密集型服务业的集聚模式对制造业产业升级产生的影响和
学位
2021年5月生态环境部提交的《中华人民共和国环境保护税法(送审稿)》将碳税写入了环境税的税目。7月,财政部作出适时开征碳税的表态,全国人大也开展讨论碳税税率的征收方案。在碳税作为一项低碳经济政策即将推出之际,模拟碳政策对经济、环境的动态影响,探寻碳税征收的适用税率区间,对政策制定具有重要借鉴参考意义。本文在碳交易与碳税的背景下,结合动态随机一般均衡(DSGE)模型,构建了我国包含环境、家庭、企业
学位
在信息技术快速进步和经济全球化的背景下,企业通过技术创新取得创新优势,创新已是社会经济发展的重要因素之一。合作伙伴选择是协同创新开展的重要先导性和基础性议题,伙伴的选择好坏会直接影响未来合作组织协同创新能力,对协同创新绩效影响重大进而关系到创新目标的实现。在协同创新伙伴选择的研究框架下,如何提升主体间的信任水平,避免机会主义行为的产生显得尤为关键。区块链技术以一种分散式信任机制,用去中心化的特性助
学位
植物光学辐射传输模型是植被遥感领域的基础模型之一,它能通过植被光谱定量反演叶片内部色素含量。传统的光学辐射传输模型认为叶片是一个平整的平面,而实际场景中植物冠层的叶片由于光温水热的变化会存在一定程度的卷曲,这个卷曲特性会显著改变叶片的多角度光谱,对后续色素反演等带来影响。但目前在该方面的研究较少。其原因:缺乏能够定量控制叶片空间状态的多角度光谱的采集装置和叶片多角度的光学辐射传输模型。针对上述问题
学位
乳腺癌作为女性最常见的癌症疾病,成因复杂,通过早期筛查可以提早发现问题做出诊断。数字乳腺断层摄影(Digital Breast Tomosynthesis,DBT)可以从不同影像切片上看到乳房不同深度的结构信息,从而缓解正常腺体与病灶区域重叠的问题,即使是较小的病灶也可清晰的显示出其大小及其形状与边缘特征。本文将会基于DBT影像,进行乳腺病灶良恶性分类和分子亚型预测研究,旨在给医生提供辅助诊断依据
学位
乳腺肿瘤是女性中发病率最高的肿瘤,其死亡人数也是最多的。在治疗乳腺肿瘤且肿瘤细胞未发生转移的情况下,以往的手段都是完全切除整个乳房,但随着人们对于乳房审美的要求的提升,保乳术及相关治疗逐渐流行起来。其中在保乳手术之首先要进行新辅助化疗,它能够增加病人接受保乳手术的机会,并获取化疗药物敏感信息。但是不同年龄、不同体质的患者对相同的化疗方案反应不同,部分患者并未达到理想的治疗效果。研究表明化疗疗效反应
学位
癌症早期准确诊断对成功治疗癌症非常重要,癌症标志物检测是癌症早期诊断的一种重要方法。由于癌症标志物含量低且所处样品背景复杂,导致现有检测方法难以灵敏检测,因此开发高效的癌症标志物分离方法,对实现癌症标志物灵敏检测具有重要意义。本文旨在研究开发一种基于自组装免疫磁珠链分离方法及平台用于癌症标志物的快速、有效分离,并以人前列腺癌(prostate cancer,PC3)细胞和癌胚抗原(carcinoe
学位