基于质心估计的模体发现算法及其在ChIP-seq数据上的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：zy3201869

【摘要】

：

模体发现是生物信息学领域中的重要问题，模体中蕴含着重要的遗传信息，在研究基因转录和调控机制方面有着重要的意义。通过计算类方法来寻找联合调控基因片段中包含的模体已经成

【作者】

：

刘源

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2014年期

【关键词】

：

模体发现质心估计 k-均值聚类贝叶斯统计 ChIP-seq

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

模体发现是生物信息学领域中的重要问题，模体中蕴含着重要的遗传信息，在研究基因转录和调控机制方面有着重要的意义。通过计算类方法来寻找联合调控基因片段中包含的模体已经成为了一种普遍的模体发现方式，计算类的模体发现算法和工具目前已经超过了100种。为了描述模体发现中模体数量不确定，实例间存在不确定性变异的特征，本文采用统计学模型来更好的表示模体，并分为两步来求解模体发现问题。第一步，通过给定的模体碱基构成矩阵得到模体起始位点集的后验概率，并通过质心估计选取最具代表性的起始位点；第二步通过给定模体起始位点集来更新模体碱基构成矩阵。随后，算法将以上两步整合到吉布斯采样的框架中，通过多次迭代，使最终的结果趋于收敛。ChIP-seq上的序列数据数据量庞大，序列非常短，这样的数据很难直接用于传统的模体发现算法。为了解决这个问题，本文设计了基于k-均值聚类的聚类方法对ChIP-seq数据进行预处理，在精简序列数量的同时最大程度保留了模体相关信息，随后将处理后的数据作为基于质心估计的模体发现算法的输入，得到了预期的效果。本文同时在Tompa标准测试集和ChIP-seq数据上对算法的有效性进行了验证。在Tompa测试集上采用性能系数对算法的结果进行了评价，并对比了算法在不同物种基因序列上的效果，发现在酵母上可以获得比其他物种更好的效果；使用转录因子Oct4在老鼠胚胎干细胞上的ChIP-seq数据作为输入，成功的找到了Oct4的模体。

其他文献

智能网络磁盘（IND）接口技术研究与设计

随着计算机网络技术和信息存储技术的发展，对信息存储系统的存储容量和速度的要求与日俱增，而存储系统的架构往往决定了整个IT系统的架构及功能。因此网络存储的发展经历了以服

学位

网络存储智能网络磁盘接口技术嵌入式系统负载均衡

基于主动方式的僵尸网络检测系统设计与实现

僵尸网络是指控制者通过僵尸程序控制大量被感染的主机而形成的一种攻击网络，控制者可以利用僵尸网络进行DDOS攻击、发送垃圾邮件等多种形式的恶意活动，僵尸网络给互联网安全带

学位

僵尸网络安全检测系统蜜罐技术域名系统

基于BDI智能体网格资源交易管理设计与实现

近年来，网格计算得到飞速发展。2002年2月，在加拿大多伦多市召开的全球网格论坛GGF会议上，Globus项目组和IBM共同倡议了一个全新的网格标准—开放网格服务架构(OpenGridServices

学位

计算经济网格BDI模型多智能体协作网格资源交易管理

基于攻击树的网络弱点分析系统的设计与实现

网络安全评估对保障网络安全起着重要作用，是目前网络安全解决方案中必不呵少的部分。网络安全评估主要通过弱点扫描系统对网络进行检查，发现其中可能被黑客利用的漏洞或误配置

学位

弱点扫描网络弱点分析攻击树网络安全

利用动态核的形态联想记忆网络及其应用研究

联想记忆是人类脑细胞的重要功能之一。近年来,G.X.Ritter等人提出的形态双向联想记忆网络(MBAM)[1,2]是一种比较有效的联想记忆方法,克服了传统联想记忆网络样本存储能力有

学位

联想记忆形态学神经网络模式识别图像处理动态核

无线传感器网络的研究

无线传感器网络是由大量的微小节点通过无线通信技术组成的自组织网络。传感器网络集数据的采集、传输、融合分析于一体,是信息技术的一个新领域。本文以智能无线传感器

学位

无线传感器网络Ad HocMiniOS基于内容的路由协议(CBP)

基于组织机构的应用区域边界访问控制模型

随着信息化科学的不断发展，计算机网络在企事业单位中的应用已经越来越广泛。越来越多的单位在自己的日常办公环境中采用了办公自动化系统，计算机网络技术在信息获取、存储、传

学位

应用区域边界访问控制组织机构计算机网络网络安全

基于正弦模型的层次化音频编码及其应用的研究

当前的QoS保证方式或者从网络端，对不同的用户提供不同的服务，如差分服务、综合服务等技术；或者由收端发送确认包，来适应网络的状况。第一种方式对于网络带宽的使用率不高，第二种

学位

正弦模型LACS层次化音频编码服务质量VVoIPH.323

P2P网络上基于MPEG-7的视频检索系统的研究

近年来多媒体数据与日剧增，多媒体访问技术也日渐丰富。然而实际应用中要想从这些海量数据中搜寻感兴趣的信息并充分利用这些有用信息依然是公认的难题。现在已经有了很多搜索

学位

P2PJXTAMPEG7XML元数据描述符描述模式描述生成基于内容的视频信息检索

基于层次化的教育网的设计与实现

目前，网络通信技术和计算机技术飞速发展，人们学习的内容和形式也发生了巨大的变化。教育系统内实现信息处理计算机化，信息交流网络化，已经成为迫在眉睫的事情。随着现代化教育对

学位

层次化设计IPSMPLS VPN教育网

基于质心估计的模体发现算法及其在ChIP-seq数据上的应用

与本文相关的学术论文