论文部分内容阅读
基因表达是指细胞在生命过程中,把储存在DNA序列中的遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子的过程.细胞中各个基因之间存在着复杂的表达与调控关系.表达型基因芯片可检测出以极低水平出现的mRNA,且易于同时监测大量的基因的表达情况,从而为基因功能研究提供依据.这一技术带来的海量基因表达图谱,需要通过生物信息学技术进行分析.数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程.将数据挖掘技术应用于基因表达分析其目的在于运用其强大的分析能力来处理海量的基因表达谱数据,从中寻找基因之间表达调控的复杂关系网络,从而为功能基因组研究提供依据.根据目前国内外基因表达谱分析的现状,我们构建了集成基因表达分析软件系统(Integrated Expression Analysis System,IEAS).研制这一软件系统的目的在于利用先进的计算机技术,构建可在多种操作系统平台上通用的基因表达数据挖掘平台.通过集成多种基因表达分析方法,使用户能够综合各种分析方法,对基因表达数据进行数据挖掘,从中获取基因表达谱中基因表达模式之间的关系,寻找其生物学意义.IEAS系统在整体上实现了从大规模基因表达谱的输入和可视化,到数据的预处理,进而到使用基因表达分析算法和相似基因表达模式匹配查询算法对表达谱进行分析,以及最终对分析结果进行可视化和文件化输出的完整过程,是一个完整的基因表达数据挖掘平台.IEAS能够将大规模基因表达图谱中所包含的各项信息以可视化的形式提供给用户.在得到基因表达矩阵后,IEAS实现了对原始表达谱数据的预处理功能,从而滤除表达变化较小的基因,并将原始数据转变为易于处理的格式.IEAS中还提供了多种矢量间和类间相似性度量方法,可在算法中根据需求对基因表达矢量间相似性情况予以多种方式的计算.在这一基础上,我们实现了多种基因表达分析算法,包括:系统聚类法,动态聚类法,自组织映射网络和主成分分析等.通过聚类算法的分析,我们可以实现对具有同一模式的基因表达矢量的分类归并,从而为探讨这些基因的表达之间的关系提供依据.而通过主成分分析等其他算法,我们可以实现对基因表达矩阵主要信息的提取,从而获得基因表达矢量在数学意义上的空间分布.在IEAS中我们根据基因表达分析的特点对上述算法进行了优化,以提高分析效率.在此的基础上,我们探讨了初步的对具有相似表达模式的基因的匹配查询算法.针对整体强度差,相位差和相反表达模式提出了初步的解决方法,并在软件中实现了针对特定基因表达矢量在数据集中匹配查询相似表达模式基因的功能.同时我们利用拖放技术实现了自定义表达模式输入,用户可以自主输入感兴趣的表达模式曲线并在基因表达数据集中匹配查询相似的表达矢量模式.在IEAS中,我们提供了对上述分析结果的可视化输出.可以把整个表达分析过程中的数据综合的,直观的提供给用户.研究者可通过可视化单元方便、快速地查询到需要的相关分析结果.IEAS采用了先进的Java平台和相关技术,具有良好的性能和跨平台能力,为在高性能计算平台上使用打下了良好的基础.同时软件采用模块化设计,为将来进一步扩展做好了准备.最后,我们采用IEAS系统分析了酵母基因表达谱,发现IEAS系统所含有的基因表达分析算法能较好地将具有相似表达模式的基因表达矢量进行归并,形成的聚类中的基因基本具有相似的功能.且不同的算法之间得到的结果具有良好的相似性,可以互为映证,从而证明IEAS是一个完整而可靠地基因表达数据挖掘平台.