论文部分内容阅读
随着社交网站及各种服务型网站的迅速兴起,各类用户生成内容(UGC)大量生成,而这些内容是用来进行数据挖掘、情感倾向分析等工作的重要数据来源。然而,由于这些内容中充斥着大量重复信息,这对数据挖掘等工作带来极大的挑战和性能瓶颈。因此,如何通过对文本进行拷贝检测,从而快速有效的提取出文本中的重复内容成为一个亟待解决的问题。在进行文本拷贝检测的过程中,首先要对文本进行特征提取和向量化操作。本文中将一个汉字或一个英文单词作为文本的一维特征,从而将文本转化为高维空间中的向量。由于计算量的限制,直接进行文本向量的比较在大规模文本下是不可行的,需要找到一种快速的计算方法。基于哈希的算法由于其简单有效、计算快速的特点,在文本拷贝检测的研究中应用十分广泛。基于哈希的文本拷贝检测算法的一般步骤是将代表原始文本的高维向量映射到低维的哈希空间中,利用所得哈希编码距离来反映原始文本的相似度,因此,基于哈希的算法本质上是一种降维方法。本文提出了一种新的文本拷贝检测算法,能够快速有效的完成微博、评论等短文本的文本拷贝检测任务,该算法为优化qSign算法。本文首先介绍了基本的qSign算法以及目前针对qSign算法的一种优化,并指出了其优化过程中存在的三个问题。本文提出的优化qSign算法能有效的解决这三个问题,并且能够取得比目前存在的文本拷贝检测算法更好的实验效果。优化qSign算法需要解决一个大规模高维非线性优化问题,难以对其直接进行优化求解,因此,采用合适的算法对该优化问题进行求解是优化qSign算法面对的主要难点。本文实现了马尔科夫链蒙特卡洛算法,通过聚类的方式间接解决了该优化问题,取得了不错的结果。最后,本文介绍了几种经典的基于哈希编码的文本拷贝检测算法,包括局部敏感哈希、最小哈希、谱哈希以及语义哈希,并介绍了每种哈希算法的代码实现。本文共进行了三组实验,分别比较了各种拷贝检测算法的实验对比、qSign算法及其优化系列的实验对比以及本文提出的优化算法中不同参数选择的实验结果对比。实验结果表明,本文提出的优化算法只需进行少量的离线计算,便取得了优于其他哈希算法的效果。