关于中文文档复制检测算法的改进

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户：xy59573928

【摘要】

：

文本复制检测是这样一种行为：它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档。文档复制检测领域的算法有很多，基于句子相似度的检测算法结合了基于字符串

【作者】

：

孙伟邢长征

【机构】

：

辽宁工程技术大学

【出处】

：

计算机工程与科学

【发表日期】

：

2010年8期

【关键词】

：

中文文档复制检测中文分词句子相似度 Chinese document copy detection Chinese word segmentatio

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本复制检测是这样一种行为：它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档。文档复制检测领域的算法有很多，基于句子相似度的检测算法结合了基于字符串比较的方法和基于词频统计的方法的优点，在抓住了文档的全局特征的同时又能兼顾文档的结构信息，是一种很好的算法。本文在该算法的基础上对相似度算法进行了改进，提出了一种新的面向中文文档的基于句子相似度的文档复制检测算法。本算法充分考虑了中文文档的特点，选择句子作为文档的特征单元，并解决了需要人工设定阂值的问题，提高了检测精度。实验证明，无论是在效率上

其他文献

非线性二次矩阵方程的多分裂法

本文针对系数矩阵为方阵的非线性二次矩阵方程AX^2＋BX＋C=0，结合多分裂法及牛顿法，给出了二次矩阵方程的两种迭代算法。同时，运用积分中值定理，对所得算法的收敛性进行了分析，得到相

期刊

二次矩阵方程并行算法牛顿法积分中值定理quadratic matrix equation parallel multisplitting Newto

基于遗传算法的直流伺服系统参数辨识及摩擦补偿控制

针对静态摩擦力对数控机床直流伺服系统的干扰问题,提出了一种先利用遗传算法对静态摩擦模型中的参数进行辨识,然后采用基于摩擦模型补偿的伺服控制方法。该方法首先根据直流

期刊

直流伺服系统遗传算法参数辨识摩擦补偿PD控制DC servo system genetic algorithm parameter identif

无线传感器网络快速广播认证协议研究

现有的高效无线传感器网络广播认证协议一般难以避免认证延迟，不适用于要求即时响应的应用和采用逐跳认证机制。本文总结了现有消除广播认证协议认证延迟的方法，指出其本质是将

期刊

广播认证认证延迟数字签名broadcast authentication authentication delay digital signature

同步数据触发体系结构中指令预取技术研究

同步数据触发体系结构SDTA将传统指令级并行细化到微操作级并行，具有较高的数据处理能力，但其特殊的指令格式及指令特性，给指令Cache访问带来了挑战。指令预取技术能够有效地降

期刊

同步数据触发体系结构指令预取微操作级并行SDTA instruction prefetch micro-operation level paralle

组合预测模型在猪肉价格预测中的应用研究

本文在分析了神经网络、灰系统和时间序列预测模型的基础上，设计了将其中两种模型组合的预测方法。该方法的主要思想是利用回归预测思想将预测分为因素预测和结果预测两部分，并

期刊

组合预测模型价格预测神经网络灰系统时间序列combinational predicting model price predicting arti

2002化学纤维的生产动向

1世界纤维生产2002年世界纤维生产产量为4 990万t,比上年减少1%,化学纤维转为增产,棉花减产,纤维总量连续4年减产.天然纤维、棉花价格下降,由于恶劣的天气条件,中国、美国、

期刊

世界生产总量发展趋势2002年化学纤维工业

图像通信中去块效应方法研究现状

图像压缩是图像通信领域中十分重要的研究内容。在低码率的情况下,由于压缩方法的局限性,重建后的图像会产生块效应。本文主要介绍了去块效应的经典方法和当前最新的研究现状

期刊

离散余弦变换去块效应凸投影集最大后验概率图像通信discrete cosine transformde-blocking POCS MAP i

关于中文文档复制检测算法的改进

其他学术论文