高通量数据的生物信息学分析和一致性排序算法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:eaglesword
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在后基因组时代,利用生物信息学方法解决生物学问题越来越受到人们的重视。本论文主要研究生物学高通量数据的生物信息学分析,和一致性排序算法的开发。在分子生物学和遗传学中,我们把发生在新生前体信使RNA转录本上的内含子移除同时外显子连接在一起的过程叫做RNA剪接。在这一过程中研究者们对U2AF异源二聚体,在前体信使RNA剪接过程中识别定义功能性的3’剪接位点的作用已经有很好的研究。但是依然有许多重要的问题不清楚,其中就包括最近在它们基因上刚发现的癌症相关的高频率突变位点是否有功能性作用。通过基因组范围的U2AF和RNA相互作用分析,我们发现在人类基因组中,U2AF能识别定义约88%的功能性3’剪接位点。同时在基因组其它位置也有大量的U2AF结合事件。通过全基因组数据分析和单基因实验验证,我们发现U2AF在内含子中的结合会抑制紧接着的下游3’剪接位点的剪接。在盒式外显子可变剪接事件中这表现为:U2AF结合在可变外显子上游会抑制可变外显子的剪接;U2AF结合在可变外显子下游会抑制下游组成型外显子的剪接进而促进与之竞争的可变外显子的剪接。基于我们的高质量高通量测序数据,利用最大熵机器学习方法,我们进一步建立一个U2AF65结合序列打分模型,可以用来预测U2AF65结合位点。用这一打分模型同样验证了我们前面提出的U2AF调控模型。这些发现揭示了U2AF在基因组范围的功能和调控机制,有助于我们进一步研究其相关疾病。人们越来越意识到在大数据时代,对生物学数据排序很重要。然而对同一个问题,基于不同的数据和排序方法,通常会有很多不同的排序结果。Cohen-Boulakia研究组提出从这些不同的排序结果中生成一个一致性的排序。这样既可以突出这些不同排序结果中的相同的信息,同时可以最小化它们之间不一致的部分。所以这一方法可以有效的减少生物学数据中的噪声和错误。然而基于Kendall-tau距离,即使只有4不同的排序,生成一致性排序问题仍然是个NP难问题。在本文中,我们提出了一种新的Pivot算法,叫Consistent-Pivot算法。该算法采用了一种新的支点选择和其它元素分配方法。我们认为这一算法充分利用了一致性排序问题的数据特点。实验证明不论在运行时间还是准确度上,Consistent-Pivot算法都优于之前的Pivot算法。
其他文献
目的研究PBL教学模式在维持性血液透析(MHD)患者健康教育中的作用。方法选取我院2011年1月~2011年12月在我院规律透析的患者120例,随机分为两组,A组60例,采用PBL教学模式,B组60
当前Web技术随着互联网的普及而快速发展,特别是快速发展的移动互联网使得Web技术时刻伴随着我们每一个互联网用户。但是,Web技术是一把双刃剑,在给互联网用户带来便利的同时,也带来了巨大的安全风险。近年来,Web应用的安全事件频繁发生,Web应用漏洞严重威胁着Web应用程序的安全以及相关用户的隐私安全。在OWASP自2007年以来,发布的历次Web应用十大安全漏洞中,SQL注入式漏洞和XSS漏洞一
错位翅片板翅式换热器具有换热效率高、结构紧凑、体积小、质量轻等特点,在航空发动机润滑系统中用于滑油换热。目前,错位翅片多应用于低粘性、低普朗特数的空气、水等介质的
赫哲族的文化和生产方式具有高度重合的特征.在现代社会转型过程中,赫哲族所面临的不是学术意义上的"族群文化"问题,而是现实生活中的强制性"产业转型"和"产业升级"问题.如何
以物的相互关系为标准,可以区分为主物与从物,其中,可以独立发挥效用之物为主物,而帮助主物发挥效用之物为从物。为了不破坏主物与从物之间的经济结合关系,大陆法系各国民法大多规定主物处分时效力及于从物,学理上称为“从随主”原则。我国“从随主”原则见于《物权法》第1 15条,但由于该条文过于简略和现实生活中主从关系复杂,该原则在我国的法律适用中出现了许多问题。一方面,由于没有明确的从物定义,法院在理解从物