论文部分内容阅读
本文研究了机器学习算法在癌症治疗和橡胶混炼过程质量控制这两个领域数据分析中的应用,其中癌症治疗领域应用涉及肿瘤细胞辐射敏感性预测和癌症分类两个方面。在两个研究领域用到的数据中,均含有大量的噪声信息,而且数据内部呈现很强的非线性影响关系。为提高癌症病人的个性化临床治疗效果,本文借助机器学习算法及NCI-60细胞系基因表达数据,提出了一种新的细胞辐射敏感性预测模型。先用显著性微阵列分析算法选择那些表达水平与细胞系辐射敏感性变化紧密相关的基因,得到辐射敏感性基因集,大大降低了数据维度。然后用偏最小二乘算法对辐射敏感性基因集提取互相正交的潜变量,移除基因表达数据之间的强相关性。最后将得到的潜变量作为支持向量机回归算法的输入,构建辐射敏感性预测模型。另外,对辐射敏感性基因集,用三类癌症病例的生存分析验证了它们的临床应用价值;用基因功能富集分析给出了它们参与的主要生物学过程及具有的主要功能。在基于基因表达数据的癌症分类间题中,基因表达数据具有的高维、小样本及变量强相关等特性使得常规分析方法很难获得满意的分类效果。为提高癌症分类准确率,本文提出一种新的SPDF分类模型。通过偏最小二乘算法提取潜变量来克服基因表达数据的强相关性,然后将潜变量作为决策森林算法的输入来构建癌症分类模型。橡胶混炼过程中,混料胶硬度参数测量存在严重的滞后性。本文提出用混炼胶流变参数作为变量并借助偏最小二乘及其改进算法,对混炼胶硬度进行在线预测。同时,针对混炼过程具有时变性及易受噪声影响等特点,引入Q统计量实现对预测模型的在线更新和更新过程样本的筛选。Q统计量不仅能选择到包含最多模型变异信息的样本点,而且可以显著地减少模型更新所需时间与数据存储量。实际应用表明,基于流变参数的硬度预测模型具有很好的预测精度和时变跟踪能力。