论文部分内容阅读
当前,胃癌的死亡率位居癌症类疾病前列,我国胃癌患者的数量约占全球胃癌患者总数的40%。科研人员近年发现一些长链非编码RNA(lncRNA)在许多癌症中表达异常,也由此提升了人们对lncRNA与癌症关系的关注兴趣。到现在为止,学界还并不熟悉胃癌的详细分子机制,对于lncRNA尤其如此。通过生物实验可以获得癌症与lncRNA的互作信息,但是与癌症相关的lncRNA的实验鉴定通常需要很高的时间复杂性和成本。本文提出了一种计算方法,通过重复使用基于外显子的胃癌阵列来确定lncRNA与胃癌之间的关系。经过实验,识别出了一种特定的lncRNA(LINC00365)及其靶标差异表达的基因,其产物被预测为可以分泌入血液、尿液或者唾液并被鉴定为胃癌的组合生物标志物的候选物。利用多源生物学知识可以进行进一步的生物信息学功能、胃癌相关的lncRNA和编码基因生物标志物的分子机制推断。本论文的首要工作是对lncRNA的分析。首先重新注释GEO数据库中人类外显子1.0st array平台下的有关肿瘤的exon array数据中的探针,进而获得lncRNA和编码基因的表达谱数据。然后对与胃癌相关的数据进行秩和检验,计算p值和表达数据基因在肿瘤与正常样本数据中的倍数变化值。当计算获得的倍数变化值大于1.5或小于1/1.5且p值小于0.01时,可认为此基因具有显著的表达差异性。接着计算皮尔森和斯皮尔曼相关系数来构建共表达网络,用逻辑函数变换整合皮尔森和斯皮尔曼计算权重,来显示显著的共表达关系。分析与差异表达的lncRNA共表达的编码基因的GO和pathway来获得lncRNA参与的生物学功能。最后判断与lncRNA相关的编码基因是否可分泌入体液,找到胃癌的组合生物标志物并进行验证。本文的第二部分是对时间序列基因表达谱数据进行研究。它是随时间不断变化的动态数据,通过分析时间序列数据可以获得较为有意义的统计特性和显著的生物学特征。最近几年,科研工作者们对时间序列数据挖掘的兴趣与日俱增,时间序列数据在每个时间点上的表达值有所不同,开发有效的分析方法是一项重大的挑战。基于时间序列的表达实验提供了探索随时间变化的基因表达谱和理解基因表达动态行为的机会,对生物学和疾病发展的研究有着至关重要的作用。本文基于多分辨率分形特征和混合聚类模型算法,探索在不同分辨率下基因表达随时间变化的模式。多分辨率分形特征由小波分解获得,这种具有概率框架的多分辨率形状混合模型算法提供了更自然、更具鲁棒性的方法进行聚类分析,其识别的分组基因具有更强的生物学意义。因此对与肿瘤相关的时间序列基因表达谱数据应用多分辨形状聚类算法,得到全局和局部的分形特征,可将数据分成有显著生物学意义的聚类。