论文部分内容阅读
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法,相应研究向着更深入的方向发展,并被不断被应用到新的领域。生物技术是21世纪研究的重点之一。由于生物数据种类多,维数高,结构复杂,因此生物数据的分析成为生命科学研究的瓶颈。近年来地研究表明,把数据挖掘技术于应用到生物学研究领域,是解决生物数据的处理、分析、挖掘和理解的重要途径之一。DNA序列是生物信息最主要的载体,携带着大量的遗传信息,因此破译DNA遗传密码对生命科学的研究有着重要科学意义。
本文的研究主要集中在DNA序列分析中的数据挖掘算法研究、设计以及相关的原型系统的实现上。一般地说,DNA序列是不同质的,存在编码区(CodingRegion)和非编码区(Non-CodingRegion),编码区和非编码区的边界称为变异点(ChangePoint)。编码区携带着重要的遗传信息,是DNA分析的主要方面。然而,DNA序列中的编码区需要通过分析才能加以界定,因此寻找编码区和非编码区的变异点是DNA序列分析中的一个基础而重要的工作。分片技术是用于寻找变异点的常用方法,而不交叉分片方法又是目前普遍采用的技术。采用不交叉分片,当变异点恰好在分片交界处时,容易查找到错误的变异点,本文采用交叉分片方法来解决这一问题,分析DNA序列。
本文的研究是在广泛使用的信息熵方法和最小描述长度(MDL)方法基础上进行的。信息熵方法是一种广泛使用的有限字符分类方法,经常结合分治法完成对DNA序列特征的全局描述。它的主要问题是处理时间的复杂度偏高。MDL方法尝试采用最优的分片长度,具有实现简单、效率高等优点。但是,MDL方法相对于分治法精度偏低,而且目前普遍使用的不交叉技术可能导致分片边界点的变异点的丢失。本文主要解决的问题有:首先,针对传统的MDL方法可能导致分片边界处的变异点无法跟踪的情况,我们引入交叉分片技术,并设计、实现和评估了相应的算法;其次,针对典型MDL方法的精度偏低的问题,将分治法和MDL方法结合,提高查找变异点的精度;最后,在某些情况下,DNA序列存在缺失的现象,我们根据序列的统计规律来估计这些缺损信息。
总之,本文在现有的算法基础上做了进一步的改进,有效地改善了算法的性能,使其能够更好地应用于DNA序列分析,在生物信息的挖掘上有潜在的应用价值。