论文部分内容阅读
肿瘤是当今威胁人类生命的主要病因之一,预防和治疗肿瘤是所有研究人员关注的焦点。随着生物信息技术的发展,基因芯片技术因其高通量、微型化等特点被广泛应用到疾病诊断中,并且从基因表达谱中提取出致病基因已经成为肿瘤治疗的一个新手段。特征选择是数据挖掘中一种非常有效的手段,它可以剔除不相关和冗余的特征,选择出与关注表型最相关的特征子集。但基因表达谱数据常常具有高维、高噪和高冗余的特点,大大降低了特征选择方法的性能,并且导致方法复杂度急剧上升。因此,设计一种有效的特征选择方法在肿瘤诊断中显得格外的重要。本文选择已公开的基因表达数据作为实验对象,并将分类精度的好坏作为评价特征选择算法的指标之一。围绕基因表达谱的特征选择问题,本文展开了一系列的研究工作,主要的研究内容包括如下几个方面:(1)传统的特征选择方法在构建模型时,常常不考虑数据间关联性或过分考虑,导致得到的特征子集解释性不合理、冗余性高和分类精度低。本文提出一种基于加权共表达模块的最小绝对值收缩算法(MLASSO)并将方法应用于肿瘤识别。该方法的基本思想是,首先计算基因相异拓扑矩阵并以此构建加权共表达模块;然后根据模块的特征值与对应表型的相关系数找出疾病相关性较大的模块;最后在选中模块内进行最小绝对值回归收缩操作得到特征基因子集。实验结果表明,MLASSO算法能够有效的提高分类准确度并减少冗余性,实验中将MLASSO方法与相关特征选择方法进行分析对比,最终也验证MLASSO方法的可行性和有效性。(2)本文提出了一种基于相似组的回归收缩特征选择方法(SGLASSO),该方法针对高维高冗余的基因表达数据常常导致特征选择模型出现泛化性较低,局部最优和稳定性差等问题,本文采用构建相似组的方式来提高选择模型的性能。SGLASSO算法利用模块显著性指标筛选并排序疾病相关模块,同时计算基因连接度指标得到各模块代表基因,接着迭代构建相似组和进行回归收缩,最终得到疾病强相关特征子集。实验结果表明SGLASSO能弥补单模块信息不足,能有效提高特征选择方法的分类精度,其稳定性和泛化性也优于其他方法。