基于哈希编码的文本拷贝检测算法优化与实现

被引量 : 0次 | 上传用户:q183727555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网站及各种服务型网站的迅速兴起,各类用户生成内容(UGC)大量生成,而这些内容是用来进行数据挖掘、情感倾向分析等工作的重要数据来源。然而,由于这些内容中充斥着大量重复信息,这对数据挖掘等工作带来极大的挑战和性能瓶颈。因此,如何通过对文本进行拷贝检测,从而快速有效的提取出文本中的重复内容成为一个亟待解决的问题。在进行文本拷贝检测的过程中,首先要对文本进行特征提取和向量化操作。本文中将一个汉字或一个英文单词作为文本的一维特征,从而将文本转化为高维空间中的向量。由于计算量的限制,直接进行文本向量的比较在大规模文本下是不可行的,需要找到一种快速的计算方法。基于哈希的算法由于其简单有效、计算快速的特点,在文本拷贝检测的研究中应用十分广泛。基于哈希的文本拷贝检测算法的一般步骤是将代表原始文本的高维向量映射到低维的哈希空间中,利用所得哈希编码距离来反映原始文本的相似度,因此,基于哈希的算法本质上是一种降维方法。本文提出了一种新的文本拷贝检测算法,能够快速有效的完成微博、评论等短文本的文本拷贝检测任务,该算法为优化qSign算法。本文首先介绍了基本的qSign算法以及目前针对qSign算法的一种优化,并指出了其优化过程中存在的三个问题。本文提出的优化qSign算法能有效的解决这三个问题,并且能够取得比目前存在的文本拷贝检测算法更好的实验效果。优化qSign算法需要解决一个大规模高维非线性优化问题,难以对其直接进行优化求解,因此,采用合适的算法对该优化问题进行求解是优化qSign算法面对的主要难点。本文实现了马尔科夫链蒙特卡洛算法,通过聚类的方式间接解决了该优化问题,取得了不错的结果。最后,本文介绍了几种经典的基于哈希编码的文本拷贝检测算法,包括局部敏感哈希、最小哈希、谱哈希以及语义哈希,并介绍了每种哈希算法的代码实现。本文共进行了三组实验,分别比较了各种拷贝检测算法的实验对比、qSign算法及其优化系列的实验对比以及本文提出的优化算法中不同参数选择的实验结果对比。实验结果表明,本文提出的优化算法只需进行少量的离线计算,便取得了优于其他哈希算法的效果。
其他文献
语言是文化的组成部分而且是核心组成部分,反映着特定的文化内容。由于各自语言中所包涵的文化以及对数字的感知取向不同,故而赋予数字的文化涵义也尽显不同。因此,每个民族,
高中阶段,学生学习任务繁重,升学压力较大,每天与黑板、书本、大量的习题为伴,由于学生长时间在一种高压环境下,没有一定的活动量,导致学生的体质呈直线下降趋势,如果我们逆向思考,学
我国房地产业建设中存在着资源消耗高、循环利用率低的问题,因此,改变传统的"高消耗,高污染"的房地产建设现状是全面实现我国资源节约型社会战略的关键之一。房地产业生态创新
数学作为工具类学科,要想学好就需要具有良好的思维,而学习数学最为忌讳的就是思维的呆板化和固定化.因此,为了学生后面阶段的数学学习,学生在小学的中高年级就要接受一种全
先将白炭黑与用不同用量(0-4 phr)的硅烷偶联剂(双-[γ-(三乙氧基硅)丙基]四硫化物,简称TESPT)在高混机中进行预处理,然后将溴化丁基橡胶(BIIR)和白炭黑以及其他助剂通过模压硫化成型
目的:建立哈萨克药骆驼蓬草药材的质量标准。方法:以新疆哈萨克地区采集的10批骆驼蓬草药材为研究对象,考察其性状;采用薄层色谱(TLC)法对药材中骆驼蓬碱和去氢骆驼蓬碱进行
采用曲面探头对高频焊管焊缝进行超声探伤,通常采用人工修磨探头方法,劳动强度大,效率低,且探头K值与入射点位置不易确定,缺陷定位误差较大,直接影响超声检测结果。针对这种情况,提
主体功能区划意义深远。主体功能区划的完成和实施,且在此基础上的主体功能区规划等,是理性政府空间管治的主要作为,也是区域有序发展的基本保障。云南省主体功能区划是云南
<正>2007年春节期间,央视国际(CCTV.com)充分利用互联网、手机电视、IPTV等跨媒体终端,联合FOX等强势海外合作伙伴,有针对性地向美国、英国、西班牙等国家和我国台湾地区推送