交叉分片技术在DNA序列挖掘中的应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:ahhfwwzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法,相应研究向着更深入的方向发展,并被不断被应用到新的领域。生物技术是21世纪研究的重点之一。由于生物数据种类多,维数高,结构复杂,因此生物数据的分析成为生命科学研究的瓶颈。近年来地研究表明,把数据挖掘技术于应用到生物学研究领域,是解决生物数据的处理、分析、挖掘和理解的重要途径之一。DNA序列是生物信息最主要的载体,携带着大量的遗传信息,因此破译DNA遗传密码对生命科学的研究有着重要科学意义。 本文的研究主要集中在DNA序列分析中的数据挖掘算法研究、设计以及相关的原型系统的实现上。一般地说,DNA序列是不同质的,存在编码区(CodingRegion)和非编码区(Non-CodingRegion),编码区和非编码区的边界称为变异点(ChangePoint)。编码区携带着重要的遗传信息,是DNA分析的主要方面。然而,DNA序列中的编码区需要通过分析才能加以界定,因此寻找编码区和非编码区的变异点是DNA序列分析中的一个基础而重要的工作。分片技术是用于寻找变异点的常用方法,而不交叉分片方法又是目前普遍采用的技术。采用不交叉分片,当变异点恰好在分片交界处时,容易查找到错误的变异点,本文采用交叉分片方法来解决这一问题,分析DNA序列。 本文的研究是在广泛使用的信息熵方法和最小描述长度(MDL)方法基础上进行的。信息熵方法是一种广泛使用的有限字符分类方法,经常结合分治法完成对DNA序列特征的全局描述。它的主要问题是处理时间的复杂度偏高。MDL方法尝试采用最优的分片长度,具有实现简单、效率高等优点。但是,MDL方法相对于分治法精度偏低,而且目前普遍使用的不交叉技术可能导致分片边界点的变异点的丢失。本文主要解决的问题有:首先,针对传统的MDL方法可能导致分片边界处的变异点无法跟踪的情况,我们引入交叉分片技术,并设计、实现和评估了相应的算法;其次,针对典型MDL方法的精度偏低的问题,将分治法和MDL方法结合,提高查找变异点的精度;最后,在某些情况下,DNA序列存在缺失的现象,我们根据序列的统计规律来估计这些缺损信息。 总之,本文在现有的算法基础上做了进一步的改进,有效地改善了算法的性能,使其能够更好地应用于DNA序列分析,在生物信息的挖掘上有潜在的应用价值。
其他文献
随着信息服务和商业活动等越来越多地出现在开放的通讯网络上,用以保证上述服务的网络安全协议的可靠性成为备受人们关注的焦点。然而,由于外部面临恶劣的网络环境和内部缺乏系
协同商务被誉为是下一代的电子商务,它通过信息与资源共享:业务整合、建立合作者社区和商务交易给企业带来了高营业额、高利润和巨大的竞争优势,是近年来计算机应用领域的研究热
“计算机支持的协同工作”(ComputerSupportCooperativeWork,CSCW)的概念自80年代中期提出后,正受到越来越多的重视,至今已成为发展最快的研究方向之一。随着信息时代的到来和网
本文在分析以往压缩算法的基础上,针对网格细节信息分布的局部性以及网上传输三维数据的特点,提出了一种率-失真优化的渐进几何压缩算法。该算法首先对半规则网格进行分块,而后
近年来,随着星间链路(ISL)技术的成熟以及星上处理能力的增强,卫星系统的服务不再是简单的“弯管”模式,星座网络成为卫星系统发展的重要趋势。然而,随着太空中卫星的日益增
为了使不同用户对XML文档具有不同的查看能力,保证查询的安全、可靠,现代数据源,包括结构化的和半结构化的,经常导出用XQuery定义的XML视图。XML视图分为实视图和虚视图两种,具有
本文研究的重点是探讨一个基于Agent技术构造分布式地理信息系统的方法,以及在此基础之上如何提供给用户一种简单方便的应用模式。本文的研究工作,概括起来主要包括以下几个方
IP电话是在国际互联网上进行语音传输的一种业务。IP电话主要的相关协议有H.323和SIP。目前在中国,H.323协议的市场占有率最高,并且最为成熟,本文研究的IP电话终端即是基于H.323
节目图像质量在交互式网络电视中占有非常重要的地位。由于各种编解码器、网络和信道传输等都会造成节目图像质量下降;为了提高节目图像质量,对接收视频的图像质量进行准确评估
Internet应用的普及,要求企业内部网的职能范围超越了物理位置的限制,同时网络上传输的数据也需要越来越高的安全保障。随着应用程序从C/S结构向Web迁移,如何在不影响外部用户使