论文部分内容阅读
基于基因表达数据的信息基因选择对于人类疾病的诊断和治疗有重要价值,简单疾病(血友病、色盲等)可以通过家系遗传连锁分析或基因变异检测等方法鉴定,而人类复杂疾病(癌症、心血管疾病和脑血管疾病等)的致病机理较为复杂,通常受到基因-基因、基因-环境之间的相互作用的影响,其遗传方式并不遵循孟德尔定律。因此,传统的单基因定位的方法(t-test,Pearson等)不足以检测出具有显著效应的致病基因。从基因互作的角度开发新的信息基因选择算法对于疾病诊断和治疗、致病机理的解析具有重要意义。基因-基因互作效应的经典模式最初由John Watkinson等定义,即具有互作效应的两个基因,单独使用任意一个均无法区分表型,而联合两个基因则可以区分表型,即当两个基因同时高表达或同时低表达时才会导致疾病的发生。但其提出的Dendrogram方法并不能检测到具有这种互作模式的基因。Doublets方法则提出了以基因配对转换的方法检测互作效应基因,并给出了4中配对模式(Sum,Diff,Mul,Sign),但其所筛选出的基因具有较强的单基因效应,不足以找到具有经典互作模式的配对基因。MIC3variables方法可以检测到具有互作效应的基因对,但其算法涉及到对三个变量的寻优计算,算法复杂度较高,计算速度较慢,而且其不能给出互作基因的数学表达式,限制了其在疾病分类中的应用。本研究所提出的Abs转换方法联合t-test单效应基因过滤方法可以有效检测到互作基因,其算法复杂度低,计算速度快,有利于在具有高维特点的基因表达数据中的应用。经过在真实基因表达数据中的验证,其可以有效筛选出具有生物学意义的互作基因,明显优于其他筛选方法。经验证,分类器无法识别其输入特征中含有具有多对互作效应的特征,必须将具有互作效应的特征进行转换后输入分类器才可获得较好的建模能力,例如,当模型中含有10对具有互作效应的特征,若将10对特征进行转换后输入分类器,则可以获得95.5%的预测精度(五折交叉验证),若不进行转换,直接将10对(20个)特征输入分类器,其所得到的预测精度仅为65.5%(五折交叉验证)。将Abs方法所筛选到的互作基因进行转换后应用于疾病分类,联合单效应基因组成新的信息基因集后,其预测精度要明显优于其他方法,;在保证输入特征中具有相同基因数目下,互作基因联合单效应基因组成的特征子集所获得的预测精度要明显优于纯单效应基因组成的特征子集,表明信息基因集中加入互作基因可以明显提高模型的预测能力,例如,当输入40个单效应基因时,在三个数据集上所获得的平均精度为80.36%,而当输入20个单效应基因加10对具有互作效应的基因时,所多得的平均精度提升到85.78%。这表明,在使用同样基因数目下,Abs方法所筛选出的互作基因加单效应基因可显著提高模型的预测精度。