论文部分内容阅读
高通量组学研究产生的大数据一般具有数据量巨大、数据种类繁多、价值需深入挖掘和处理响应速度快等特征。以人的全基因组DNA双端测序为例,如果以平均30倍覆盖率测序则可产生100 GB的原始数据(压缩FASTQ格式),回帖到基因组后的二进制储存BAM文件格式可达150 GB。基因组测序数据分析中还必需结合临床医学和样本的病理学等信息。此外,医学研究的大数据分析与展示中还需要考虑医学伦理和对患者个人隐私的保护。由于基因组测序成本日趋下降,以Illumina公司最近新推出的X Ten测序仪为例,一个肿瘤样本全基因测序成本约为1万元、全转录组测序(RNA-seq)约为5千元。这些大数据为肿瘤分子靶点的发现提供了机遇,但对大数据的充分挖掘、整合与利用也带来了巨大挑战。本文将介绍高通量组学大数据的基本分析方法、流程,阐述现阶段大数据的生物信息分析促进肿瘤分子靶点的发现的基本方法和应用。