【摘 要】
:
随着大数据时代的来临,海量数据的处理问题已成为一个热点话题,而机器学习算法的不断发展与完善,为迎接大数据时代的来临奠定了基础。目前,机器学习算法在多个领域都得到了广
论文部分内容阅读
随着大数据时代的来临,海量数据的处理问题已成为一个热点话题,而机器学习算法的不断发展与完善,为迎接大数据时代的来临奠定了基础。目前,机器学习算法在多个领域都得到了广泛的应用,涉及到的领域包括化工过程控制、气象数据分析、垃圾邮件的识别与过滤以及生物医学领域的分析研究等等。面对如此多的海量数据,尤其是高通量技术下产生的海量生物医学数据,如何排除噪声信息的干扰,找出关键信息,提高机器学习算法在癌症相关研究领域应用的精度和效率是大数据时代面临的一个主要问题之一。吸烟虽然是已知的最主要的肺癌致病因素,但统计数据表明,肺腺癌患者中不吸烟患者的比例呈现逐年上升的趋势。针对吸烟与不吸烟肺腺癌患者发病机理等差异性的研究逐渐成为世界范围广泛关注的热点问题。本文基于吸烟相关肺腺癌患者全基因组基因表达数据、甲基化数据,以TCGA数据为训练集,EDRN数据为独立测试集,创新性地结合了多种降维和变量筛选的方法,分别从基因表达差异性、生物相关性以及差异分类重要性等多方面综合筛选候选基因集,并通过偏最小二乘(PLS)的多重迭代优化分类当前吸烟/从不吸烟样本,识别出真正的关键特征基因,从而为揭示吸烟与肺腺癌发生之间的关系以及不吸烟肺腺癌的患病机理奠定基础,为从基因组水平和分子生物学水平揭示吸烟与不吸烟肺腺癌患者的差异提供依据。最终应用本文所提出的方法,共确定43个基因表达特征基因以及48个甲基化特征基因,达到了较高的分类精度,训练集精度分别为79.2%以及87.5%,独立测试集精度分别为86.3%以及76.4%。同时,特征基因代谢通路分析表明,这些特征基因大多数与癌症的发生发展以及生物功能、细胞发育等都有着密切的联系,更为重要的是,部分特征基因对肺癌/肺腺癌的重要影响已被实验所验证。与已有的研究成果相比,本文所提出的方法在模式识别的精度上更具有优势,显示了独特的优越性。本文还对拷贝数变异数据的上述应用进行了研究,取得了初步成绩。
其他文献
目前动态路阻函数是统一的,未考虑不同车型的具体运行情况,而公交车是城市交通中的特殊交通工具,对城市交通可持续发展起重要作用,本文在考虑所有车型的基础上,重点分析公交
在对灰色系统理论研究的基础上,设计实现了一个基于GM(1,1)模型算法的客运交通量实例预测系统,系统设计有友好的人机交互界面,包含数据库输入,数据预测、残差分析和拟合曲线
为解决旅游景区的交通拥堵和空气污染问题,基于游客选择偏好,构建旅游景区“停车换乘”系统优化模型.模型以改善景区空气污染和降低停车换乘(P&R)系统运营成本为目标,优化P&R
以嵌入式技术为基础,设计基于蓝牙的路网行程时间检测器,实现自动采集车载蓝牙MAC地址并配时和存储的功能.本文通过场地测试确定了设备漏检率的平均大小、与速度的关系及初次
C8芳烃是由对二甲苯(PX)、邻二甲苯(MX)、间二甲苯(OX)与乙苯(EB)组成的混合物,主要由催化重整、裂解汽油加氢及甲苯歧化与烷基化等工艺过程产生。其中,对二甲苯是C8芳烃中的最为重要的同分异构体,用于合成精对二苯甲酸与对二苯甲酸甲酯,制备聚对二苯甲酸二乙酯,生产聚酯纤维与工程塑料。混合二甲苯分离提纯对二甲苯是芳烃联合装置的核心单元,基于分子筛吸附分离的模拟移动床技术是目前PX提纯的主流工艺
本文以乳糖为唯一原料,研究了利用透性化K.lactis细胞和游离β-半乳糖苷酶分别催化乳糖制备低聚半乳糖(GOS),并利用K.lactis酵母发酵法进行纯化以制备高纯度GOS的生产工艺。为了简化提纯β-半乳糖苷酶的步骤,减少酶活损失,同时提高β-半乳糖苷酶的稳定性,以透性化K.lactis细胞催化乳糖合成GOS;为了解决GOS产品纯度不高的问题,开发了利用K.lactis细胞进行选择性发酵纯化GO
初中阶段是学生学习英语的关键时期,在这个时期内学生的英语能力迅速提高,英语基础逐渐建立,并形成一定的英语核心素养.在这个阶段,为了进一步加强学生的英语能力,教师应当重
路内停车是城市交通静态设置重要组成部分,由于车辆停放占用道路资源和驶入驶出机动行为,势必对动态交通流运行产生显著影响.本文针对路内停车对非机动车道通行能力影响,以
本文对交通信息服务的可信性问题进行了研究与分析.针对交通服务缺乏可信性内涵分析与验证方法的问题,提出一种服务的可信性质计算方法.采用本体理论构建存在于人与服务之间
以客运枢纽内连接服务设施设备的通道作为研究对象,以通道的长度和宽度对行人流分散作用的强度分析入手,借助行人流仿真软件,设计仿真方案,利用仿真输出的行人流参数统计数据