论文部分内容阅读
目的 利用生物信息学分析方法寻找结直肠癌(CRC)肝转移生物标志物。方法 在公共基因芯片数据库(GEO)下载CRC数据,获得2个数据集共261个样本,其中包含167个非转移样本和94个转移样本,对两批样本混合后随机拆分成训练集195个样本(75%)和验证集66个样本(25%)。对两批数据芯片中提供的原始数据进行Robust Multi-chip Average (RMA)归一化处理,然后利用R-package Combat去除批次效应。筛选在转移组和非转移组 t 检验 P <0.05的基因(426个