基于质心估计的模体发现算法及其在ChIP-seq数据上的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zy3201869
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模体发现是生物信息学领域中的重要问题,模体中蕴含着重要的遗传信息,在研究基因转录和调控机制方面有着重要的意义。通过计算类方法来寻找联合调控基因片段中包含的模体已经成为了一种普遍的模体发现方式,计算类的模体发现算法和工具目前已经超过了100种。为了描述模体发现中模体数量不确定,实例间存在不确定性变异的特征,本文采用统计学模型来更好的表示模体,并分为两步来求解模体发现问题。第一步,通过给定的模体碱基构成矩阵得到模体起始位点集的后验概率,并通过质心估计选取最具代表性的起始位点;第二步通过给定模体起始位点集来更新模体碱基构成矩阵。随后,算法将以上两步整合到吉布斯采样的框架中,通过多次迭代,使最终的结果趋于收敛。ChIP-seq上的序列数据数据量庞大,序列非常短,这样的数据很难直接用于传统的模体发现算法。为了解决这个问题,本文设计了基于k-均值聚类的聚类方法对ChIP-seq数据进行预处理,在精简序列数量的同时最大程度保留了模体相关信息,随后将处理后的数据作为基于质心估计的模体发现算法的输入,得到了预期的效果。本文同时在Tompa标准测试集和ChIP-seq数据上对算法的有效性进行了验证。在Tompa测试集上采用性能系数对算法的结果进行了评价,并对比了算法在不同物种基因序列上的效果,发现在酵母上可以获得比其他物种更好的效果;使用转录因子Oct4在老鼠胚胎干细胞上的ChIP-seq数据作为输入,成功的找到了Oct4的模体。
其他文献
随着计算机网络技术和信息存储技术的发展,对信息存储系统的存储容量和速度的要求与日俱增,而存储系统的架构往往决定了整个IT系统的架构及功能。因此网络存储的发展经历了以服
僵尸网络是指控制者通过僵尸程序控制大量被感染的主机而形成的一种攻击网络,控制者可以利用僵尸网络进行DDOS攻击、发送垃圾邮件等多种形式的恶意活动,僵尸网络给互联网安全带
近年来,网格计算得到飞速发展。2002年2月,在加拿大多伦多市召开的全球网格论坛GGF会议上,Globus项目组和IBM共同倡议了一个全新的网格标准—开放网格服务架构(OpenGridServices
网络安全评估对保障网络安全起着重要作用,是目前网络安全解决方案中必不呵少的部分。网络安全评估主要通过弱点扫描系统对网络进行检查,发现其中可能被黑客利用的漏洞或误配置
联想记忆是人类脑细胞的重要功能之一。近年来,G.X.Ritter等人提出的形态双向联想记忆网络(MBAM)[1,2]是一种比较有效的联想记忆方法,克服了传统联想记忆网络样本存储能力有
无线传感器网络是由大量的微小节点通过无线通信技术组成的自组织网络。传感器网络集数据的采集、传输、融合分析于一体,是信息技术的一个新领域。 本文以智能无线传感器
随着信息化科学的不断发展,计算机网络在企事业单位中的应用已经越来越广泛。越来越多的单位在自己的日常办公环境中采用了办公自动化系统,计算机网络技术在信息获取、存储、传
当前的QoS保证方式或者从网络端,对不同的用户提供不同的服务,如差分服务、综合服务等技术;或者由收端发送确认包,来适应网络的状况。第一种方式对于网络带宽的使用率不高,第二种
近年来多媒体数据与日剧增,多媒体访问技术也日渐丰富。然而实际应用中要想从这些海量数据中搜寻感兴趣的信息并充分利用这些有用信息依然是公认的难题。现在已经有了很多搜索
目前,网络通信技术和计算机技术飞速发展,人们学习的内容和形式也发生了巨大的变化。教育系统内实现信息处理计算机化,信息交流网络化,已经成为迫在眉睫的事情。随着现代化教育对