论文部分内容阅读
生物信息学是计算机学科的一个重要研究分支,其中的研究热点,基因表达数据挖掘能够从基因层次上揭示细胞当前的生理状态,在致病基因发现、临床辅助诊断、药物疗效判断等领域有重要应用。样本量少、维度高、信噪比低等数据特性是基因表达数据挖掘的难点。本研究通过针对基因表达数据特性设计的特征选择算法、关联规则挖掘算法与分类模型有效地提高了基因表达数据的可理解性及分类精度,在疾病辅助诊断等领域有一定的应用价值。具体来说,本课题的研究内容及创新点有:1.提出了一种基于条件互信息的特征选择算法MIGS。MIGS使用条件互信息度量每个基因在已选基因集基础上对样本类别信息的贡献进行基因选择,有效地解决了传统特征选择算法在高维数据上普遍存在的特征冗余问题。考虑到基因表达数据样本量少的特性,我们提出了一种条件互信息近似度量策略,该近似度量策略与核密度估计算法相结合解决了小样本数据上的条件互信息度量问题。最后MIGS算法还通过剪枝策略,提高了算法在高维数据上的计算效率。MIGS有效地解决了高维、小样本数据上的特征选择问题,算法相关性能在实际基因表达数据集上获得了验证。2.为进一步提高分类精度,我们提出了一种结合分类器特性设计的基因集筛选策略ERSM。ERSM首先随机抽取子特征集,然后分别对每个子特征集采用最小二乘支持向量机度量各个特征的相对权重,最后综合各个子特征集上的结果获得所有特征的全局重要性排序。这种分而治之的策略有效解决了支持向量机迭代特征剔除算法(SVM-RFE)在高维数据中推广能力差、计算复杂度高等问题。与当前主流特征选择算法相比,ERSM特征选择算法在实验数据集上获得了最高的平均分类精度,在疾病辅助诊断有重大应用价值。3.为了进一步提高基因表达数据分类结果的可解释性,我们使用关联规则去发现一些有意义的基因表达模式,并利用这些关联规则对基因表达数据进行分类。我们采取了以下三方面的策略解决了关联规则在基因表达数据上应用时遇到的困难:两种基于格结构的兴趣度能够从大量具有相同支持集的关联规则中发现最有意义的关联规则;递增式关联规则挖掘算法能够在高维数据上高效地挖掘出top-k有意义的关联规则;基于分类器显著性度量的关联规则分类器模型,IRCBT,能够在小样本情况下仍能获得较好的分类效果。上述一整套方案较为完美地解决了高维、小样本数据上的关联规则挖掘和分类问题,不仅对基因表达数据挖掘有较大推动作用,对相关领域也有借鉴意义。4.考虑到关联规则挖掘的离散化预处理丢失了大量的信息,我们提出了一种基于核密度估计的关联规则的兴趣度计算框架,它使用了离散化前的数据对关联规则进行度量,在保证关联规则容易理解的前提下,降低了关联规则的误发现率。由于新的关联规则兴趣度对挖掘算法提出了新的挑战,我们采取挖掘近似top-k关联规则的策略。最后我们提出的基于条件独立假设检验的关联规则分类器构造算法,解决了关联规则分类器中普遍存在的过拟合问题。在实际数据集上的实验结果显示,我们提出的解决方案兼具分类精度高、结果容易解释这两个优点。