论文部分内容阅读
随着生物信息技术的不断进展,生物数据急速海量积累,与之对应的人类处理海量生物数据的方法却相对贫乏,为了挖掘海量数据中的知识和信息,人们综合运用数学,计算机科学和生物学的各种工具,促进了生物信息学的快速发展.单核苷酸多态性(SNPs)是基因组中最常见的一种多态形式,SNPs的识别问题也是生物信息学研究的一个重要方面.
SNPs检测对于复杂疾病的预防和治疗有着广泛的应用,特别是对于当前多基因复杂疾病如肿瘤、冠心病,糖尿病等.因此,近几年探讨SNPs作为复杂性疾病的遗传标记的关联性研究大量涌现,由于生物数据有它本身的特殊性,传统的单因素分析已经不能满足SNPs识别的需要,尤其是在SNPs具有强连锁不平衡性以及SNPs数量远大于样本数量的情况下.在这篇文章中,我们把岭回归,逐步回归,lasso回归以及boosting变量选择的办法应用到SNPs的识别问题研究,并且通过比较ROC功效曲线以及相应的AUC面积可以看出,与单因素分析相比,它们在SNPs的识别问题中具有一定的优势.