论文部分内容阅读
随着科学技术的发展,近几十年来大数据成为重要的研究课题,如何将数据转化为有用的知识,是人们越来越关心的问题。基于效用的模式挖掘技术综合考虑模式的内部特性和外部因子,可以从数据库中发现高效用的模式知识,给决策者提供决策支持,在商业中具有广泛的应用。此外,大数据的采集、维护和使用已在科学研究、经济建设和社会生活等领域产生了积极的作用。但是大数据意味着数据会更加复杂,通常呈现多源异构、不确定性的特点,同时数据量会很庞大;而现有的很多算法无法处理这样复杂、海量的数据。本文的主要研究内容和贡献如下:
为了从多个数据源中挖掘出高效用项集知识,即多个数据源中有价值的模式,本文提出了多数据源的高效用项集挖掘的框架。先前的算法大多是从单一数据源中发掘知识,为了处理多数据源的问题,本文基于多数据源的高效用项集挖掘框架提出了模式集成算法SPS。该算法允许每个数据源各自挖掘属于该数据源的高效用项集,之后统一分发到数据中心,然后在数据中心进行模式集成,发掘全局的高效用项集。为了提升模式集成的效果,SPS算法在为每个数据源计算权重时,除了考虑每个数据源提供的模式,还引入潜在模式和数据源大小两个因素,并提出整合多个因素的方法。实验结果表明提出的算法比基准算法有着更好的集成效果。同时,与传统的方法相比,有着更好的时间性能。
为了从海量的数据中发现高效用序列模式,本文提出了两种分布式与并行的高效用序列模式挖掘算法:基于Hadoop平台的HHUSPM算法和基于Spark平台的HUSP-Spark算法。HHUSPM算法采用的是三阶段MapReduce架构。算法中提出了一种近似负载平衡的策略来分发数据,以及提出了数据结构sidset来缓存结果。此外,HHUSPM算法还使用了加速效用值计算的数据结构Utility-Linked List,来进一步提升算法的效率。实验结果显示HHUSPM算法与传统算法相比可以从大数据中挖掘高效用序列模式。HUSP-Spark算法采用本文设计的迭代的多阶段MapReduce架构。为了缓存必要的信息,加快后续的计算,算法使用了本文提出的SU-Chain结构。此外,为了进一步提升挖掘的效率,HUSP-Spark算法使用了多种剪枝策略减小搜索空间。实验结果显示HUSP-Spark算法相比于现有的基于Spark的算法在大数据集上时间性能更好。
为了处理不确定的数据,本文首先将不确定度和效用值结合,提出了新概念期望效用,进而提出了一种新的模式高期望效用序列模式。为了从不确定的序列数据库中挖掘高期望效用序列模式,本文首先改进目前最好的传统算法作为基准算法来挖掘高期望效用序列模式。之后,针对本问题,提出了有效的高期望效用序列模式挖掘算法HEUSP。在HEUSP算法中,提出了两个新的效用上界,并基于两个效用上界设计出剪枝策略,减少搜索空间,提升算法效率。实验结果显示,HEUSP算法在运行时间有着更好的性能并且产生更少的候选模式;此外,相对于确定数据的模式挖掘问题,不确定的模式挖掘可以挖掘更少但更优质的模式。
为了从多个数据源中挖掘出高效用项集知识,即多个数据源中有价值的模式,本文提出了多数据源的高效用项集挖掘的框架。先前的算法大多是从单一数据源中发掘知识,为了处理多数据源的问题,本文基于多数据源的高效用项集挖掘框架提出了模式集成算法SPS。该算法允许每个数据源各自挖掘属于该数据源的高效用项集,之后统一分发到数据中心,然后在数据中心进行模式集成,发掘全局的高效用项集。为了提升模式集成的效果,SPS算法在为每个数据源计算权重时,除了考虑每个数据源提供的模式,还引入潜在模式和数据源大小两个因素,并提出整合多个因素的方法。实验结果表明提出的算法比基准算法有着更好的集成效果。同时,与传统的方法相比,有着更好的时间性能。
为了从海量的数据中发现高效用序列模式,本文提出了两种分布式与并行的高效用序列模式挖掘算法:基于Hadoop平台的HHUSPM算法和基于Spark平台的HUSP-Spark算法。HHUSPM算法采用的是三阶段MapReduce架构。算法中提出了一种近似负载平衡的策略来分发数据,以及提出了数据结构sidset来缓存结果。此外,HHUSPM算法还使用了加速效用值计算的数据结构Utility-Linked List,来进一步提升算法的效率。实验结果显示HHUSPM算法与传统算法相比可以从大数据中挖掘高效用序列模式。HUSP-Spark算法采用本文设计的迭代的多阶段MapReduce架构。为了缓存必要的信息,加快后续的计算,算法使用了本文提出的SU-Chain结构。此外,为了进一步提升挖掘的效率,HUSP-Spark算法使用了多种剪枝策略减小搜索空间。实验结果显示HUSP-Spark算法相比于现有的基于Spark的算法在大数据集上时间性能更好。
为了处理不确定的数据,本文首先将不确定度和效用值结合,提出了新概念期望效用,进而提出了一种新的模式高期望效用序列模式。为了从不确定的序列数据库中挖掘高期望效用序列模式,本文首先改进目前最好的传统算法作为基准算法来挖掘高期望效用序列模式。之后,针对本问题,提出了有效的高期望效用序列模式挖掘算法HEUSP。在HEUSP算法中,提出了两个新的效用上界,并基于两个效用上界设计出剪枝策略,减少搜索空间,提升算法效率。实验结果显示,HEUSP算法在运行时间有着更好的性能并且产生更少的候选模式;此外,相对于确定数据的模式挖掘问题,不确定的模式挖掘可以挖掘更少但更优质的模式。