面向图流和文本数据分类的哈希方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:daxian005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的快速发展和网络的广泛应用,每天从社交网络、业务交易以及传感器等应用中产生的数据难以计数。尽管传统的哈希技术能够很大程度上压缩数据并提高数据管理性能,但是压缩后的数据往往会丢失很多重要的信息,也因此失去了相应的挖掘价值。为了解决这一问题,本文以图流及文本数据的分类问题为背景,研究有效的哈希方法,在实现对数据压缩的同时,尽可能保证数据信息的完整性,以此为基础实现有效的数据分类。  针对图流的应用场景,本文提出了基于区分性图团特征的哈希方法(DICH)用于对图流数据进行快速分类。其主要思想是采用快速算法将图分解成若干图团,然后顺序地提取图团模式作为图特征。该方法利用两个随机哈希方案压缩图流数据中原始的边集信息,并将无限增加的图团模式映射到一个固定大小的特征空间中。这些已经被映射的图团信息被用于实时更新一个存放于内存中并且大小固定的模式类别表,该表最终将被用于构建一个基于规则的分类器。实验结果表明,DICH方法在尽可能保留数据信息的同时,解决了图流挖掘问题中图团模式信息的无限扩大问题、加快了图流数据的分类过程并且提高了分类效率。  针对图流数据中概念漂移的问题,在 DICH方法的基础上,本文进一步提出了一个面向实时图流分类的自适应哈希方法(ARC-GS)。首先,为了有效地识别图流数据中的概念漂移数据,整个图流数据被划分成若干个含有相同图数量的数据块。对于每个数据块,采用随机哈希方案压缩图流中原始的节点信息。然后,基于之前数据块的特征信息,探测出当前块中的新旧图团特征,以便及时地发现概念漂移数据。之后采用差分哈希方案,将新旧图团特征映射到各自大小固定的特征空间中,该特征空间被用来增量学习一个实时块分类器。最后,采用块级加权机制建立一个集成的图流分类器。实验结果表明,面向实时图流分类的自适应哈希方法不仅更好地保留了数据的信息,并且一定程度上加快了图特征提取的过程,解决了图特征的无限增加问题,有效地适应了带有概念漂移数据的图流分类问题。  在 DICH哈希方法的基础上,针对快速图流分类问题,进一步提出了一个图分解方法。该方法的主要目的是使用区分性图团的线性组合表示图并用于图流分类。这种图分解方法不仅确保信息损失尽可能小,同时也避免了耗时的子图同构验证过程。基于这种思想,本文提出了一个基于图分解的细粒度表示模型用于快速图流分类。实验结果表明,这种基于细粒度的图表示模型能够更好地保留图的信息并实现高效的图流分类。  针对文本数据的分类问题,本文提出了一个递归最小哈希方法(RMH)。该方法的目标是快速计算文本之间的相似度,同时尽可能保留上下文信息并提高文本分类效率。考虑到语义层级问题,该算法设计了“多层交换”的概念,并采用嵌套集合表示多层交换对象应用于词级、句子级和段落级中。实验结果表明,该方法能够在保持计算成本不变的情况下,能够更准确地计算文本数据之间的相似度,并实现高效的文本分类。
其他文献
遗传规划是一种进化算法,遗传规划所操作的程序树既是问题的解也是对于问题的一种描述。只要提供了描述问题的“函数”和“终结符”,遗传规划就能自动将其结合成解决问题的树
数字曲线可视为一种离散的几何信号;图像可以在空间上进行离散化,成为数字图像;三维几何模型可看作一系列离散点组成的非平稳信号。因而数字曲线、图像和三维几何模型的处理
城市交通中行人交通安全问题逐年恶化。为了保障行人交通安全,减少交通事故,车载行人检测技术已成为目前国内外智能交通领域公认的一个研究热点。它是通过车载的自动监视系统
随着电信技术、IP网络的发展,下一代网络NGN(Next Genration Network,下一代网络)技术正在迅速发展,软交换设备为NGN提供了具有实时性要求的业务呼叫控制和连接控制功能,是NG
P2P网络中,基于半分布式拓扑结构的P2P系统,结合了全分布式和中心化的特点,既有Napster良好的管理功能,又有Gnutella的健壮性和支持复杂查询的特点,具有良好的管理性和扩展性
随着网络带宽和传输速率的日益增大,各种网络业务飞速发展,网络流量自相似性的研究也逐渐成为热点,广泛应用于路由器排队、路由策略选择、网络测量、网络协议性能分析和网络
随着无线网络技术与传感器技术的不断发展与进步,无线传感器网络作为一种结合两者的新型网络技术,正逐渐引起全世界的广泛关注。节点可通过任意方式随机部署,自动组织成一个无线
计算机的发展激起了人们对人工智能的渴望,互联网的飞速膨胀改变人们对信息的理解。人们希望计算机能和人类用语言交流,能读懂互联网上的信息,能帮助人们从海量的信息中准确
分片式处理器体系结构(TPA)能够很好地应对纳米工艺代的功耗、线延迟、设计和验证复杂度等一系列问题,是一种具有良好的性能扩展潜力的众核处理器体系结构设计方案。作为一种
与文本无关的说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域有着良好的应用前景。 本文介绍了说话人识别系统中需要用到的理论和方法例如高斯混合模