序列模式挖掘若干问题研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:chen_gm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘在Web日志挖掘、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用。基于频繁模式增长的。PrefixSpan是目前性能最好的序列模式挖掘算法之一。然而在密数据集和长序列模式挖掘过程中,会出现大量的重复投影数据库,使得这类算法性能下降。同时,序列数据库往往是动态更新的,如果每次都是从原始数据库中进行挖掘更新序列模式,将面临巨大的搜索空间,效率低下,通过在已有的模式基础上挖掘新的模式,可以减少挖掘原始数据库的次数。 本文针对序列模式挖掘搜索空间大,序列数据库更新频繁等特点,对序列模式挖掘算法及其相关算法进行了研究。主要工作成果为: 1) 给出了一种针对序列模式的压缩表示方法,节省了基于频繁模式增长的序列模式挖掘算法所需要的内存空间。 2) 提出了一种序列模式挖掘算法,通过对投影数据库的伪投影做单项杂凑函数,如。MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,从而生成了压缩的前缀树,并采用一些必要条件简化压缩前缀树结点的搜索。并根据压缩前缀树给出了一种构造闭合序列模式的算法。 3) 证明了当前基于PrefixSpan的IrmSpan系列算法并不能挖掘出所有的序列模式,这类基于半频繁模式的增量序列模式挖掘算法存在缺陷。并提出了一种新的增量序列模式挖掘算法,通过前缀树来表示序列模式,然后不断地扫描增量序列产生的增量集来维护这个树的结构,在扫描过程中通过广度剪枝和深度剪枝算法来缩小搜索空间。然后结合压缩前缀树和增量剪枝策略,进一步提高增量序列模式挖掘算法的效率。 4) 对序列流数据给出了一种近似准确的序列模式挖掘算法,并证明了算法的正确性
其他文献
自从全基因组测序成为可能以来,基因组结构注释(包括了解基因组DNA中的基因组成、结构及其调控元件)成为生物信息学研究的重要问题,由于基因组结构注释系统的计算量庞大,需要
当前核酸、蛋白质数据呈几何级数增长,如何从海量数据中获取有效信息成为生物信息学迫切需要解决的问题。数据挖掘技术就是从大量的数据中挖掘出有用的或者人们感兴趣的知识的
随着互联网技术的发展,存储于Web里的信息急剧膨胀,这些信息包括文本信息、声音信息、图像信息等,其中文本信息存储和传输技术相对比较简单,易于上传和下载,因此大部分信息以文本
支持向量机是在统计学习理论的基础上发展起来的新一代学习算法,该算法在机器学习、模式识别等领域都取得了很好的应用。但随着需要处理的数据量不断增大,支持向量机表现出计
学位
随着 EPA 标准的逐步推广应用,国内有很多厂商正在从事 EPA 产品的开发工作。为检查各个不同生产厂家的实现是否与 EPA 标准相一致,并保证不同实现版本之间能够完全地相互访问
随着 Internet、无线通讯技术的迅速发展, VoWLAN(Voice over WirelessLocal Area Network)业务超过传统语音业务已成为一个不可避免的趋势,其业务将逐步从以传统语音业务为主
脱机手写中文签名鉴别的主要困难就在于特征的提取,因此本文主要围绕如何提取能反映签名较本质的特征进行了相关研究。在具体解决签名鉴别时,一方面要考虑签名的静态特征,另
组合优化中的许多问题是NP-完全问题,也是科学和工程计算中重要和基本的问题,这类问题的求解一直是算法研究领域的热点问题。对于NP-完全的组合优化问题,至今尚无很好的解析
随着数字技术和网络技术的不断发展,如何解决相关的版权保护、完整性认证、秘密通信等问题,成为亟待解决的研究课题。信息隐藏就是为解决这些问题而出现的。数字水印技术起源于