基于层次聚类的生物序列结构分析

来源 :江南大学 | 被引量 : 0次 | 上传用户:chinaoristand
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物序列是计算生物学中的一个重要研究对象,主要包含DNA序列和蛋白质序列等。生物序列中隐藏着生物的遗传信息,其发现与研究在生物学、医学、药学等领域上都有重要意义。为了挖掘生物序列中的遗传信息,需要对序列结构进行分析。层次聚类作为一种经典的生物序列结构分析方法,可用于获得不同生物序列之间的相似性关系,进而分析序列的功能,研究其中隐藏的遗传信息。本文研究的是生物序列的一级结构,主要利用各种数值映射方法构造生物序列的特征向量,并基于特征向量对生物序列作结构分析,然后研究生物序列之间的相关关系并预测序列功能,最后讨论其生物学意义。研究中主要使用层次聚类对序列作结构分析,同时结合使用了DNA分段、方差分析和分组讨论等方法,并将处于DNA编码区的p53家族基因和非编码区的DNase I高敏位点(DNase I hypersensitive sites,DHSs)作为研究对象,具体工作为:1、研究p53家族基因的进化差异性。提取24条p53家族的DNA序列作为研究对象,利用混沌游走表示的方法将DNA序列映射为平面直角坐标系中的点列,然后构造8维加权特征向量来描述DNA序列。结合DNA分段和方差分析等方法对24条序列的特征向量作层次聚类。根据聚类结果来分析p53家族基因的差异性。研究结果表明,在p53家族中,p53、p63和p73等3类基因的差异主要体现在DNA序列的前2/3段和所构造特征向量的第4维和第7维上。2、研究p53家族基因的三周期性。由于三周期性是DNA序列蛋白质编码区的一种重要性质,所以提取30条p53家族的DNA编码序列作为研究对象。根据Voss映射和离散傅立叶变换可以获取序列的功率谱,而三周期性可以由功率谱图像直观显示。提取功率谱中的最大功率谱、信噪比、位移偏度和三周期性强度等特征,进而对p53家族基因作分步聚类。研究结果表明,p53家族中p53、p63和p73等3类基因的最大功率谱、信噪比和三周期性强度有显著差异,在位移偏度上整体表现出稳定性。此外,根据分步聚类可以有效地分析序列中体现的生物进化规律。3、DHSs的预测。DHSs是染色质上易被DNase I酶分解的若干片段,对DHSs的预测有助于研究DNA序列非编码区的功能。通过伪三核苷酸组的方法可以提取DHSs和non-DHSs中的局部序列顺序和整体序列顺序。继而对DHSs和non-DHSs作结构分析,并提出分组分类算法对DHSs作预测。根据结构分析的结果可知,DHSs和non-DHSs之间的二连核苷酸CG的含量有显著差异。此外,通过预测结果的比较分析,分组分类算法在DHSs的预测上具有更高的准确率。
其他文献
为有效改变当前我国房地产价格种类繁多但缺乏权威性基准价格的现状,在科学借鉴国内外先进实践经验的基础上,将"基准房价"概念从"片区价"升华至"一房一价"并明确界定其基本内
"翻转课堂"充分发挥了教师的主导作用和学生的主体作用,是目前教育教学的研究热点。高职教育对"翻转课堂"的教学模式尚处于观望状态,还没有具体成熟的应用案例。笔者从微课视
国外个人住房制度的基本要素包括:贷款期限及贷款利率,贷款额度与个人收入、抵押物价值的比例,政府在个人住房贷款市场中的作用,贷款违约情况下的处置措施,按揭贷款的流动性
癌症是中国公民致死率最高的疾病之一,预防、早期诊断和治疗是癌症防控的关键。癌症筛查通过可视化检查、影像学成像或癌症相关生物标志物检测等方式,在尚无癌症症状的人群中
<正>一直以来,滑雪镜都是眼镜行业里不起眼的"小众"产品,因季节性强、受众少,上游的眼镜企业不愿生产,下游的眼镜零售店不愿售卖,所以国内知名的滑雪镜品牌少之又少。可是近
目的 通过研究支气管哮喘患者血清和周围血单个核细胞(PBMC)中IL-8、IL-10、IFN-γ的表达,以及设定治疗后观察治疗前后的临床和细胞因子的变化,探讨支气管哮喘的发病机理,寻求
细胞内重要的转录因子E2F1是E2F家族中第一个被克隆出来的蛋白,对细胞的增殖、分化和凋亡都发挥着关键性的作用。E2F1参与了细胞周期从G1期到S期的转换:在细胞周期G1期前,Rb与
<正> 美育与德育是促进人全面发展的两个重要方面,它们有着内在的联系,但长期以来,人们只强调德育的重要,或认为美育可有可无,或认为美育包含在德育里面,以德育代美育,或把美
随着“数字城市”的快速发展和城市建设规划水平的不断提高,为了建立城市三维建筑物模型,急切需要及时、准确地提取出三维建筑物,而传统的摄影测量方法已经很难满足这一需要。近
目前,高维数据在我们的日常生活随处可见,如何从高维数据中获取我们所需要的信息是当前研究的一个热点。对于高维数据的聚类问题,可以通过降维后使用传统的聚类算法,也可使用子空间聚类算法进行聚类,亦可使用新的距离度量方式来计算各样本点之间的距离从而来衡量相似性。本文的工作主要包括以下两个方面。(1)合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。