【摘 要】
:
伴随着测序技术的重大改革以及新一代测序技术的兴起,人类基因组草图的完成以及千人基因组计划的开展,无一不昭示着个人基因组时代的到来。如何管理这些海量的异构的个人基因
论文部分内容阅读
伴随着测序技术的重大改革以及新一代测序技术的兴起,人类基因组草图的完成以及千人基因组计划的开展,无一不昭示着个人基因组时代的到来。如何管理这些海量的异构的个人基因组数据俨然成为首要课题。本文分析了个人基因组所包含的信息,了解国际上各种基因组注释数据的组织方式,通过研究各种类型的基因组数据及其之间的相互关系,建立了一个统一的个人基因组注释数据模型来存储个人基因组数据。通过该数据模型可以实现基于数据类型、数据坐标、数据名称、数据描述等多种简单和复合的数据库查询操作。此外,为了整合不同格式的异构基因组数据,本文创建了若干数据转换脚本自动地将各种格式的基因组数据文件转换为GFF3文件格式。为了满足研究机构间的数据交换要求,本文创新的使用序列本体,一个由生物学家承认的受控词表及其相互关系的集合,作为数据交换的标准以及语义异构现象的解决方法。与此同时,本文还结合信息量理论与图的路径覆盖来计算序列本体中各术语对的相似性,以实现个人基因组数据的语义模糊搜索对海量基因组数据库进行多维数据分析。本文在课题研究过程中开发了一个用来发布、存储、管理及可视化个人基因组数据的信息系统,同时实现GBrowse的自动化和自定义配置,使用开源GBrowse模块作为可视化组件,并且在系统中加入了基于序列本体的语义搜索功能以及数据过滤模块,便于浏览者从家族、种族等不同角度分析基因组的遗传变异和进化。此外,系统还严格限制用户操作数据的权限来维护系统数据的安全性。该个人基因组信息管理系统能够有效实现数据之间的比较和共享,其丰富的可视化功能将生物学家们从枯燥的海量数据中解放出来,有助验证假说和揭示生物学数据本身或者生物学分析的错误,这对生物学科的发展有着十分重要的意义。
其他文献
近半个世纪以来,在摩尔定律的支配下,信息技术呈现出了前所未有的繁荣景象,互联网技术也不断改革创新。根据IDC预测,当前形势下每年产生的数据量高达8ZB,到2020年这个数字将
近年来,三维重建技术在考古学、建筑学、地质学、虚拟现实、机器人导航、物体识别以及军事等领域得到越来越广泛的应用。同时,随着计算机技术及网络技术的迅速发展,利用计算
图像去噪是图像处理中关键的预处理环节。由于在含噪图像中,大部分噪声和图像细节分布在高频区域,不易区分,导致去噪时会不同程度地损坏图像的细节信息。因此,如何能在去噪的
随着互联网的普及率越来越高,利用互联网进行信息的承载、传播以及人与人之间的交流已经成为人们生活和工作中不可缺少的一部分。然而,网络环境的日益复杂导致针对政府、军队
20世纪90年代以来,随着我国持续不断增长的网络规模、不断丰富的各类应用,互联网的价值和重要性也进一步突出,计算机进入到网络应用阶段,呈现出前所未有的社会化趋势。然而,由于各
随着计算机技术的发展,计算机软件的作用越来越重要,涉及人类社会的各行各业,用于解决复杂的实际问题。为了不断满足用户的新需求以及不断适应应用环境的改变,构成软件系统的
基于属性的密码技术将非对称密码方案中标识用户唯一身份的公钥替代为能标识用户的属性集合,通过设置访问控制结构达到实现数据机密性的同时,实现细粒度访问控制和一对多通信
随着计算机技术、多媒体技术和网络技术的快速发展,视频信息在人们获取的信息中占的比重越来越大。如何有效并且快速的管理和检索海量的视频信息成为亟待解决的问题。由于基于
正序列模式是只含有发生元素的序列,而负序列模式是不仅含有发生元素还含有不发生元素的序列,这种含有发生元素和不发生元素的负序列模式在深层次理解序列和处理一些商业问题
伴随着经济一体化、全球化趋势的发展,集装箱运输保持了较高的增长速度,为中国的集装箱运输的发展带来了新的机遇与挑战。集装箱发展迅速并且会持续增长,如何对港口集装箱物