论文部分内容阅读
在当今的大数据时代下,随着数据样本量的增多以及维数的增加,对数据分析以及机器学习算法提出了更高的要求。机器学习算法已经经历了漫长的发展和研究,从最开始的理论研究到现代生活中的实际应用,它一步步地影响着我们的生活生产方式并展示出强大的生命力。本文研究了机器学习在生物信息学以及化工过程这两个背景下的应用。
肺癌是人类都需共同面对的危险疾病之一,而吸烟是导致肺癌的一项主要原因,因此针对肺癌的吸烟患者与不吸烟患者的模式差异性非常值得研究。文中基于肺腺癌患者的全基因组基因表达、甲基化以及拷贝数变异,以TCGA数据为训练集,EDRN/SPORE数据为测试集,创新性地通过基因表达差异性、已知的重要基因、部分最小二乘相关算法优化分类当前的样本,从而识别出不同的模式并筛选出了关键的特征基因。最终共得出43个基因表达特征基因、48个甲基化特征基因以及75个拷贝数变异特征基因,相应TCGA训练集准确性为79.2%、87.5%和77.1%,EDRN/SPORE测试集准确性为86.3%、76.4%和77.3%。最后通过京都基因与基因组百科全书验证结果,加强了我们所选特征基因的可信度。
化工过程的故障检测与诊断是化工过程安全生产以及工厂利益的一个重要保障,在传感器及物联网技术的快速发展下,工业数据呈大数据、变量相关性、时变性等特点。对此文中提出了基于变量互信息的递归分布式主成分分析(IRDPCA)。对于工业数据间的变量相关性,文中使用互信息(MI)来考虑它们之间的关系来进行分块。为了解决大数据问题,我们使用基于MapReduce的递归分布主成分分析进行建模,并通过遗忘因子对其进行了优化,克服新数据淹没在老数据中的问题。相应地,递归建模后提出了递归贝叶斯决策融合和递归分层故障诊断的方案。IRDPCA性能是通过氟化工过程和引入了缓慢且不影响产品质量的搅拌器效率变化的田纳西·伊士曼过程进行验证的。得益于合理的分块和对变量的时间跟踪能力,IRDPCA显示出明显的优势。
肺癌是人类都需共同面对的危险疾病之一,而吸烟是导致肺癌的一项主要原因,因此针对肺癌的吸烟患者与不吸烟患者的模式差异性非常值得研究。文中基于肺腺癌患者的全基因组基因表达、甲基化以及拷贝数变异,以TCGA数据为训练集,EDRN/SPORE数据为测试集,创新性地通过基因表达差异性、已知的重要基因、部分最小二乘相关算法优化分类当前的样本,从而识别出不同的模式并筛选出了关键的特征基因。最终共得出43个基因表达特征基因、48个甲基化特征基因以及75个拷贝数变异特征基因,相应TCGA训练集准确性为79.2%、87.5%和77.1%,EDRN/SPORE测试集准确性为86.3%、76.4%和77.3%。最后通过京都基因与基因组百科全书验证结果,加强了我们所选特征基因的可信度。
化工过程的故障检测与诊断是化工过程安全生产以及工厂利益的一个重要保障,在传感器及物联网技术的快速发展下,工业数据呈大数据、变量相关性、时变性等特点。对此文中提出了基于变量互信息的递归分布式主成分分析(IRDPCA)。对于工业数据间的变量相关性,文中使用互信息(MI)来考虑它们之间的关系来进行分块。为了解决大数据问题,我们使用基于MapReduce的递归分布主成分分析进行建模,并通过遗忘因子对其进行了优化,克服新数据淹没在老数据中的问题。相应地,递归建模后提出了递归贝叶斯决策融合和递归分层故障诊断的方案。IRDPCA性能是通过氟化工过程和引入了缓慢且不影响产品质量的搅拌器效率变化的田纳西·伊士曼过程进行验证的。得益于合理的分块和对变量的时间跟踪能力,IRDPCA显示出明显的优势。