多关系数据流挖掘算法与应用研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:keyu1711
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的课题背景为国家自然科学基金“多关系频繁模式挖掘模型、方法库的知识发现机理、模型与算法研究”(项目批准号:60875029)。   多关系数据流环境,是一种现实存在而又复杂的数据环境,其多见于生物信息学、金融数据及交易记录等领域,往往同时具有多关系环境与数据流环境的特点,而针对该环境的数据挖掘方法尚研究不足。本文的研究主线为,首先形式化地给出多关系数据流环境的相关定义,而后提出一种适用于多关系数据流环境的数据概要方法,在此基础上,以KDTICM理论为指导,给出一种多关系数据流频繁模式挖掘算法以及一种多关系数据流分类算法,最后将后者应用于蛋白质二级结构预测的实际问题,并通过理论与实验分析,论证了这些方法的有效性且具有较高的执行效率。   本文的研究内容和创新点概括如下:   1)提出一种适用于多关系数据流环境的数据概要方法。历史数据的无损维护,在多关系数据流环境下是不现实的,因此有必要依靠某种数据概要方法对历史数据进行抽象概要,并利用概要数据结构维护这些历史数据的概要信息。(1)充分研究两种与多关系数据流环境密切相关的复杂数据环境——数据流环境与多关系数据环境,讨论了这两个环境下,现有数据挖掘的方法及其特点;(2)综合数据流环境与多关系数据环境的特点,给出了一种现实存在而又更为复杂的数据环境——多关系数据流环境的形式化定义,并指出了其区别于其它数据环境的特征;(3)基于周期采样技术,提出一个新的数据概要方法DSPS,讨论了其功能与优势,通过建立定理论证其有效性;(4)以(3)为基础,诱导出一个基于周期采样的单一数据流频繁项集挖掘算法FI-PS,及其采用的概念迁移检测方法,通过仿真实验,进一步论证了DSPS的有效性与实用性。   2)提出一种多关系数据流频繁模式挖掘算法。从现有多关系数据流挖掘的研究进展可知,其中亟待解决的问题,是巨大的搜索空间带来的时空复杂度与流动数据的客观限制之间的矛盾,这也是该领域目前尚未解决多关系频繁模式挖掘问题的原因之一。(1)为解决多关系数据流环境下的频繁模式挖掘问题,讨论将DSPS数据概要方法融合到多关系数据流频繁模式挖掘问题中,并给出切实可行的使用方式;(2)在分析现有语言偏置方法的基础上,给出了一种新的声明性偏置——模式连接树,基于其的模式特化方法具有更高的特化效率;(3)在此基础上,提出一种多关系数据流频繁模式挖掘算法RFPS,并通过建立相关定理,给出了基于DSPS的支持度误差范围;(4)在仿真数据集与蛋白质二级结构数据集上,通过实验分析,进一步论证了RFPS算法的有效性与性能。   3)提出一种多关系数据流分类算法。从多关系数据挖掘的现有成果来看,大多数已知挖掘算法,旨在在多关系环境下寻找分类精度高,语义丰富的分类规则或模型。然而就当前的研究进展来看,适用于多关系数据流环境的分类算法仍为鲜见。(1)为解决多关系数据流环境下的分类问题,构造了适应该环境的数据概要结构,结合数据概要方法DSPS,给出了多关系分类模式的概要方式;(2)通过理论分析,给出了保证容差的最大周期采样率的计算方法;(3)在此基础上,提出一种多关系数据流决策树算法Redtrees,引入其维护算法与剪枝策略,并通过仿真实验验证其性能。   4)提出一种基于多关系数据流分类算法的蛋白质二级结构预测方法。蛋白质二级结构预测问题,在生物信息学的诸多研究内容中占有重要地位。近年来蛋白质二级结构预测研究进展缓慢。(1)为更好地解决蛋白质二级结构预测问题,我们提出了一种新颖的、逐步求精、多层递阶的预测系统模型——复合金字塔模型,该模型融合了基于KDTICM理论的KDD*过程模型与首次提出的SAC、AAC等多种技法;(2)构造相应于多关系数据流环境的蛋白质数据库,设计关系属性以及连接结构,并给出基于Redtrees算法的蛋白质二级结构预测方法;(3)以Redtrees算法替换复合金字塔模型中的AAC模块,形成改进型的复合金字塔模型R;(4)全面评测本文提出的蛋白质二级结构预测方法以及复合金字塔模型R,最后论证了其先进性。   通过跟踪国内外文献,尚未见与以上创新点相同的研究,本文所取得的研究成果在一定程度上,解决了多关系数据流环境下的多关系频繁模式挖掘问题与多关系分类问题,在理论与实际应用方面,填补了国内外在该领域的空白。
其他文献
人脸属性,例如眼镜、表情、姿态等,是对人脸除身份信息外的描述。不同于人脸属性预测,人脸属性分析与编辑解决了一个对偶问题,即在保持人脸身份信息的条件下,生成该人脸特定属性的
无线传感器网络由于其广阔的应用前景,已成为近年来的研究热点之一。在无线传感器网络中,传感器节点的位置信息十分重要。这是因为传感器节点收集的数据一般需要与其位置进行绑
关联规则是数据挖掘领域最为成熟的研究内容之一,也是基于数据库的知识发现中知识的主要表示形式。但一般关联规则仅限于体现事物间的关联关系,是一种弱关系,在实际应用中往往不
随着入侵检测技术的不断进步,入侵检测系统(IDS)愈来愈呈现出分布性、智能化的特征。传统的分布式入侵检测系统,往往仅采取一种分布式数据采集和层次化数据分析的方法。这虽然
内容管理系统常用于企业信息化建设和电子政务,利用内容管理系统可以协助企业和组织实现其内容的创建、存储、应用和更新。内容管理系统中对象资源客体可以是任何类型的数字信
随着无线通信和移动定位技术的发展,基于位置的服务成为一种流行趋势,受到学术界和工业界的广泛关注。位置服务是与用户当前位置相关的增值服务,包括基于位置的紧急救援服务、基
随着Internet的飞速发展,特别是Deep Web(暗网)的发展,Web信息资源越来越丰富。网上出现了大量数据质量较高、领域性较强的信息,但是能够快速、准确地获取这些信息的途径却比较有
随着因特网和无线通信技术的发展,越来越多的移动设备需要接入因特网。为了支持移动设备接入因特网的需求,IETF制定了移动IPv6以提供移动数据解决方案。但是移动IPv6存在切换延
数据挖掘的概念自产生之初,就受到了研究学者们的广泛关注。经过几十年的发展,许许多多的新概念、新方法被人们探索出来,并得到传承和改进。特别是最近几年,一些基本概念和基本方
近年来,个人消费信贷蓬勃发展,商业银行的个人信贷业务所面临的信用风险逐渐成为影响商业银行最重要的风险。在我国的信用基础以及信用评估技术还相对薄弱的情况下,借鉴国外的信