改进的基于串匹配的中文文档复制检测方法研究

被引量 : 0次 | 上传用户:cracezhangxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的快速发展,人们可以从网络上获得大量的数字文档。然而,网络就像是一把利弊参半的双刃剑:一方面,它为研究人员了解相关技术提供了大量的信息资源,有利于科研活动的开展;另一方面,它为剽窃者占有他人的研究成果创造了便利的条件,助长了抄袭剽窃等不良的学术风气。与传统的数字水印技术不同,文档复制检测技术不需要利用特殊的编码方式在数字文档中嵌入额外信息,而是通过提取文档自身的特征来检测抄袭行为。现有的文档复制检测方法根据文档特征提取方式的不同分为三类:基于串匹配的检测方法、基于特征向量的检测方法和基于文本块语义表示的检测方法,其中第一类是研究最多、应用最广的检测方法。针对目前基于串匹配的检测方法在安全性方面存在的不足,本文借鉴数字水印和信息隐藏中应用比较成熟的同义词替换处理,提出了两种改进的基于串匹配的检测方法。1)基于同义词替换与N-gram的检测方法。该方法给出了一种改进的指纹提取算法,指纹提取中运用了中文分词、关键词选择、同义词替换等处理,提高了复制检测的安全性;在指纹存储中使用了倒排索引结构,提高了复制检测的速度。通过实验对比发现,提出的方法可以有效地检测同义词替换的抄袭文档和简单句子修改的抄袭文档。2)基于多文本块指纹提取的检测方法。该方法分析了现有的文本块选取策略,选取句子文本块和K-words文本块进行文档复制检测。在句子文本块的指纹提取中,主要运用了关键词选择、哈希值处理、消息摘要算法(MD5)等;在K-words文本块的指纹提取中,主要涉及同义词替换、词排序、指纹生成等;在重叠度计算中,通过改进的重叠度计算方法得到文档重叠度。通过对比实验发现,提出的方法在处理同义词替换的抄袭文档和简单句子修改的抄袭文档时具有更好的检测效果。
其他文献
以区域经济一体化为背景,探讨了京津冀区域战略性新兴产业的发展状况,分析了京津冀区域一体化发展的理论前提,包括城市定位、地理资源和产业结构等都存在梯次性和互补共生性
《昭通方言疏證》初撰於1921年,主要以姜亮夫先生的母語昭通方言為研究對象,歷六十年而成書。全書约二十餘萬字,仿《爾雅》體例展開,凡四十卷,分作“釋詞、釋天、釋地、釋人
石油销售企业发展过程中,重组,转换职工身份,提高生产力,改变生产关系,涉及国家、企业、职工切身利益的调整等问题十分值得重视。这些重要问题若处理不好,小问题将演变成大问
我国的民用机场建设投资,存在巨大的资金缺口,促进投资多元化是必然选择。特许经营作为一项在国际上成功实施多年的机场运营管理机制,通过与BOT等融资模式联合运用,既可提高
"两新"党建是全国基层组织建设年的重点工作,对促进党的执政能力提升和"全党抓经济"新格局形成具有重要作用。当前"两新"党建所面临的环境和问题,影响和制约着"两新"党建工作
目的探索2种生物碱对大鼠离体子宫的作用,为益母草相关制剂质量标准中活性质控成分的研究提供实验依据。方法采用大鼠离体子宫实验,依次将盐酸益母草碱和盐酸水苏碱分别作用
对地方政府官员的激励安排是影响中国经济社会发展的重要方面.本文关注中国省级正职和副职官员评价晋升体系中的经济因素、非经济因素和个人特征因素,以及在不同级别官员中这
:本文试图回答国内管理科学界困惑的几个问题 :SCI是否收录管理科学方面的期刊 ?SCI和 SSCI收录了哪些管理科学方面的期刊 ?管理科学期刊的评估有哪些常见的方法 ?用引文率来
川产道地药材“川泽泻”存在重金属铬超标现象,氮素能够缓解重金属对植物的胁迫作用。本研究通过土培及水培实验,研究氮铬耦合下铬在泽泻种苗及植株中的动态积累规律及对泽泻
明代中篇文言传奇小说存在单行本、合刊本及改装本三种方式,在单行本与合刊之间、或者两个合刊本之间,其文本往往发生删改变动,具体表现为:增饰故事细节,语言化雅为俗,变文为