论文部分内容阅读
本文的课题背景为国家自然科学基金“多关系频繁模式挖掘模型、方法库的知识发现机理、模型与算法研究”(项目批准号:60875029)。
多关系数据流环境,是一种现实存在而又复杂的数据环境,其多见于生物信息学、金融数据及交易记录等领域,往往同时具有多关系环境与数据流环境的特点,而针对该环境的数据挖掘方法尚研究不足。本文的研究主线为,首先形式化地给出多关系数据流环境的相关定义,而后提出一种适用于多关系数据流环境的数据概要方法,在此基础上,以KDTICM理论为指导,给出一种多关系数据流频繁模式挖掘算法以及一种多关系数据流分类算法,最后将后者应用于蛋白质二级结构预测的实际问题,并通过理论与实验分析,论证了这些方法的有效性且具有较高的执行效率。
本文的研究内容和创新点概括如下:
1)提出一种适用于多关系数据流环境的数据概要方法。历史数据的无损维护,在多关系数据流环境下是不现实的,因此有必要依靠某种数据概要方法对历史数据进行抽象概要,并利用概要数据结构维护这些历史数据的概要信息。(1)充分研究两种与多关系数据流环境密切相关的复杂数据环境——数据流环境与多关系数据环境,讨论了这两个环境下,现有数据挖掘的方法及其特点;(2)综合数据流环境与多关系数据环境的特点,给出了一种现实存在而又更为复杂的数据环境——多关系数据流环境的形式化定义,并指出了其区别于其它数据环境的特征;(3)基于周期采样技术,提出一个新的数据概要方法DSPS,讨论了其功能与优势,通过建立定理论证其有效性;(4)以(3)为基础,诱导出一个基于周期采样的单一数据流频繁项集挖掘算法FI-PS,及其采用的概念迁移检测方法,通过仿真实验,进一步论证了DSPS的有效性与实用性。
2)提出一种多关系数据流频繁模式挖掘算法。从现有多关系数据流挖掘的研究进展可知,其中亟待解决的问题,是巨大的搜索空间带来的时空复杂度与流动数据的客观限制之间的矛盾,这也是该领域目前尚未解决多关系频繁模式挖掘问题的原因之一。(1)为解决多关系数据流环境下的频繁模式挖掘问题,讨论将DSPS数据概要方法融合到多关系数据流频繁模式挖掘问题中,并给出切实可行的使用方式;(2)在分析现有语言偏置方法的基础上,给出了一种新的声明性偏置——模式连接树,基于其的模式特化方法具有更高的特化效率;(3)在此基础上,提出一种多关系数据流频繁模式挖掘算法RFPS,并通过建立相关定理,给出了基于DSPS的支持度误差范围;(4)在仿真数据集与蛋白质二级结构数据集上,通过实验分析,进一步论证了RFPS算法的有效性与性能。
3)提出一种多关系数据流分类算法。从多关系数据挖掘的现有成果来看,大多数已知挖掘算法,旨在在多关系环境下寻找分类精度高,语义丰富的分类规则或模型。然而就当前的研究进展来看,适用于多关系数据流环境的分类算法仍为鲜见。(1)为解决多关系数据流环境下的分类问题,构造了适应该环境的数据概要结构,结合数据概要方法DSPS,给出了多关系分类模式的概要方式;(2)通过理论分析,给出了保证容差的最大周期采样率的计算方法;(3)在此基础上,提出一种多关系数据流决策树算法Redtrees,引入其维护算法与剪枝策略,并通过仿真实验验证其性能。
4)提出一种基于多关系数据流分类算法的蛋白质二级结构预测方法。蛋白质二级结构预测问题,在生物信息学的诸多研究内容中占有重要地位。近年来蛋白质二级结构预测研究进展缓慢。(1)为更好地解决蛋白质二级结构预测问题,我们提出了一种新颖的、逐步求精、多层递阶的预测系统模型——复合金字塔模型,该模型融合了基于KDTICM理论的KDD*过程模型与首次提出的SAC、AAC等多种技法;(2)构造相应于多关系数据流环境的蛋白质数据库,设计关系属性以及连接结构,并给出基于Redtrees算法的蛋白质二级结构预测方法;(3)以Redtrees算法替换复合金字塔模型中的AAC模块,形成改进型的复合金字塔模型R;(4)全面评测本文提出的蛋白质二级结构预测方法以及复合金字塔模型R,最后论证了其先进性。
通过跟踪国内外文献,尚未见与以上创新点相同的研究,本文所取得的研究成果在一定程度上,解决了多关系数据流环境下的多关系频繁模式挖掘问题与多关系分类问题,在理论与实际应用方面,填补了国内外在该领域的空白。