基于ChIP-seq数据的转录因子结合位点识别算法

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:zxc694134272
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的大力发展,研究者们不断地在探究基因调控规律,而不能深入的理解转录调控规律已经成为研究调控网络的瓶颈。目前,转录因子结合位点识别问题已成为生物信息学的热点研究领域之一。转录因子作为一种重要的转录调控因子,在基因表达的过程中,通过与特定的DNA序列相结合,调控下游基因的表达,抑制或增强其作用,是基因表达的关键步骤。识别这些特定的DNA序列对理解基因调控具有重要意义。随着高通量自动化测序技术的快速发展,染色质免疫共沉淀(ChIP)技术与二代测序技术相结合的ChIP-seq技术为转录因子结合位点识别研究提供了海量的数据。ChIP-seq技术在全基因组上免疫沉淀DNA片段,为全基因组范围上识别转录因子结合位点提供了高分辨率的数据,成为了研究转录因子结合位点的常规手段。现在已有许多转录因子结合位点识别算法用于寻找ChIP-seq数据中的转录因子特异结合序列,但这些算法依然存在很多问题。首先,现存的这些算法不足以胜任ChIP-seq的海量数据而导致不切实际的开销;其次,这些算法过度依赖重复序列过滤,无法区分识别位点真伪等缺点。本文在现有发表的ChIP-seq数据基础上,挖掘和总结ChIP-seq数据的特点,并针对这些特点,利用期望最大化(expectation maximization, EM)算法的思想,提出了一个简化的EM算法。已有的基于EM的识别转录因子结合位点识别算法忽略了ChIP-seq数据的特点,虽然成功的发现了真实的转录因子结合位点,但却付出了时间的代价。本文中通过将该算法在水稻ChIP-seq数据和小鼠胚胎原细胞ChIP-seq数据上进行检验。结果证明,与已有的算法相比,该算法消耗的时间更少,并能准确的识别已有的和新的转录因子结合位点。本文提出的算法提高了ChIP-seq数据的转录因子结合位点识别算法的性能,对转录因子的研究提供了新的技术手段和重要工具。
其他文献
随着Internet的普及,网络已经成为人们获取信息的主要途径,为了帮助人们从海量网页中获取有用的信息,网页自动分类技术应运而生,其可以快速有效地分析和组织海量网页信息,它
随着计算机和通信技术的发展,用户对信息的安全存储、安全处理和安全传输的需求越来越迫切,信息安全的问题就显得更加重要。而解决这一问题的有效手段之一是使用现代密码技术
车载自组织网络(VANET:vehicle Ad Hoc Networks)是一种车辆之间、车辆与路边基站之间通信的移动自组织网络(MANET:Mobile Ad Hoc Networks),随着经济的发展,交通工具的使用
WebGIS是Internet技术在地理信息系统中应用的产物,WebGIS不仅拥有传统地理信息系统中对地理数据的集成、存储、检索、操作和分析等功能,相比之下,WebGIS具有开发和维护成本
医学影像数据所呈现的爆炸式增长及数据挖掘等技术的迅速发展,对医学图像检索技术提出了新的需求。但是,传统的图像检索技术应用到医学图像检索当中,其表现却总是不尽如人意
V.Vapnik领导的AT&Tbell实验室研究小组从上世纪60年代开始就致力于有限样本统计理论的研究,并将这一理论称为统计学习理论(Statistical Learning Theory, SLT)。支持向量机(
20世纪末以来,信息技术的发展迅速,嵌入式系统、无线通信、分布式信息处理技术及微电子机械系统等技术也快速发展起来,具有感知、计算和无线网络通信能力的无线传感器网络(Wi
随着传感技术、定位技术和通信技术的发展,近年来从物理世界中获取信息的系统的研究引起了学术界和产业界的广泛兴趣。例如:传感器网络和全球定位系统GPS,它们从物理世界中采
随着全球信息化的飞速发展,信息网络在人们的日常生活中已占据了十分重要的地位。以往面对面的教学方式已显然不能满足现在社会的需要,逐渐也开始把信息化引入教育领域中,从而打
道路交通标志识别近年来一直是一个研究热点问题。经济社会的发展使道路交通面临诸多瓶颈,人们迫于寻求一种新的技术解决交通安全和阻塞问题,综合机器视觉、图像技术、计算机