一种用于抄袭识别的文档距离度量

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:db0928
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广义编辑距离的计算是一个NP-完全问题,在充分考虑了文档抄袭行为的特点之后提出一种基于广义编辑距离的单向的低计算复杂性的文档距离度量方法。首先,计算第一文档的各段落在第二文档全文中的近似串匹配距离之和,同时确定各段落在第二文档中的近似匹配子串(即原象串),然后根据这些原象串得到回退数和前跳数,最后将三者求和作为文档距离。该文档距离是一种广义编辑距离的近似值,能够在O(n^2)时间内计算,并能充分反映抄袭方向。针对人工文档和实际文档的两组实验表明该距离具有较低的漏检率、误检率。
其他文献
将一种改进的邻域算法应用于不均衡样本集中,由于改进的邻域算法未考虑不均衡样本集的问题从而导致后续的支持向量机训练耗费和泛化性能受影响,把后验概率的思想加入改进的邻域
由于支持向量具有边界性,在利用语音训练集对基于支持向量机(SVM)的说话人识别系统进行训练之前,需要对该训练集进行约简。考虑到该训练集一般十分庞大且具有非线性可分的特性,提
如今的社会经济在高速的发展,我国的各项事业取得了很大的进步。一切的进步离不开科学技术这一强大的后盾,在我们的很多的工程项目方面都有很好的体现。在这样的发展形势下我们的地籍测绘方面表现得尤为突出,如今的地籍测绘技术在工程的整体中具有重要的地位,更多的运用先进的科学技术,通过数据说话,使得得到的数据更加的准确,有利于下一步工作的顺利开展。本文就地籍测绘技术的相关的方面展开了详细的论述,希望对大家有所帮
针对分布式数据库中发生待处理的事务流提出一种动态可串行调度算法。通过执行此算法,能够高效地处理源源不断的事务流,使之尽可能串行调度地执行,从而提高并发度,以及分布式数据
随着高速网络的快速发展,如何在高速网络中快速有效地捕捉到异常的攻击特征,成为研究IDS所面临的首要问题。利用主成分分析技术的不同主成分互不相关和主成分是原始特征的线性
电网是经济社会发展的重要基础设施,目前,我国的电网正在进一步发展中,电网安全稳定运行的客观环境正在发生巨变。为了迎接电网由工业化向信息化转变的新挑战,国家电网公司提出建