论文部分内容阅读
随着信息社会的快速发展和网络的广泛应用,每天从社交网络、业务交易以及传感器等应用中产生的数据难以计数。尽管传统的哈希技术能够很大程度上压缩数据并提高数据管理性能,但是压缩后的数据往往会丢失很多重要的信息,也因此失去了相应的挖掘价值。为了解决这一问题,本文以图流及文本数据的分类问题为背景,研究有效的哈希方法,在实现对数据压缩的同时,尽可能保证数据信息的完整性,以此为基础实现有效的数据分类。 针对图流的应用场景,本文提出了基于区分性图团特征的哈希方法(DICH)用于对图流数据进行快速分类。其主要思想是采用快速算法将图分解成若干图团,然后顺序地提取图团模式作为图特征。该方法利用两个随机哈希方案压缩图流数据中原始的边集信息,并将无限增加的图团模式映射到一个固定大小的特征空间中。这些已经被映射的图团信息被用于实时更新一个存放于内存中并且大小固定的模式类别表,该表最终将被用于构建一个基于规则的分类器。实验结果表明,DICH方法在尽可能保留数据信息的同时,解决了图流挖掘问题中图团模式信息的无限扩大问题、加快了图流数据的分类过程并且提高了分类效率。 针对图流数据中概念漂移的问题,在 DICH方法的基础上,本文进一步提出了一个面向实时图流分类的自适应哈希方法(ARC-GS)。首先,为了有效地识别图流数据中的概念漂移数据,整个图流数据被划分成若干个含有相同图数量的数据块。对于每个数据块,采用随机哈希方案压缩图流中原始的节点信息。然后,基于之前数据块的特征信息,探测出当前块中的新旧图团特征,以便及时地发现概念漂移数据。之后采用差分哈希方案,将新旧图团特征映射到各自大小固定的特征空间中,该特征空间被用来增量学习一个实时块分类器。最后,采用块级加权机制建立一个集成的图流分类器。实验结果表明,面向实时图流分类的自适应哈希方法不仅更好地保留了数据的信息,并且一定程度上加快了图特征提取的过程,解决了图特征的无限增加问题,有效地适应了带有概念漂移数据的图流分类问题。 在 DICH哈希方法的基础上,针对快速图流分类问题,进一步提出了一个图分解方法。该方法的主要目的是使用区分性图团的线性组合表示图并用于图流分类。这种图分解方法不仅确保信息损失尽可能小,同时也避免了耗时的子图同构验证过程。基于这种思想,本文提出了一个基于图分解的细粒度表示模型用于快速图流分类。实验结果表明,这种基于细粒度的图表示模型能够更好地保留图的信息并实现高效的图流分类。 针对文本数据的分类问题,本文提出了一个递归最小哈希方法(RMH)。该方法的目标是快速计算文本之间的相似度,同时尽可能保留上下文信息并提高文本分类效率。考虑到语义层级问题,该算法设计了“多层交换”的概念,并采用嵌套集合表示多层交换对象应用于词级、句子级和段落级中。实验结果表明,该方法能够在保持计算成本不变的情况下,能够更准确地计算文本数据之间的相似度,并实现高效的文本分类。