论文部分内容阅读
随着互联网的普及和网络资源的日益丰富,给人们的工作、生活、娱乐带来很大的便利,同时也也引发了一系列负面的影响,比如日益严重的抄袭现象。近年来,学术抄袭现象屡屡发生,给社会以及个人带来了很坏的影响。为了防止信息资源的非法复制、保护知识产权,各国陆续投入到反抄袭检测技术的研制队列中并取得了一定的进步,为遏制日益严重抄袭现象的做出了很大贡献。本文首先介绍了反抄袭技术的发展背景、国内外研究状况以及未来的发展趋势,接着分析现有国内外典型的反抄袭检测工具技术方案、结构原理以及性能的优缺点,并探讨了系统所需的模式匹配算法、相似度算法以及中文分词等相关技术及其特点,在此基础上提出了一款基于中英文的反抄袭检测系统的设计方案。其次,本文分析目前抄袭检测工具的不足,提出了一种基于中英文环境下的反抄袭检测算法APT算法。该算法设计实现了对中英文字符串的合理分割和匹配结构的构建,在匹配过程结合文本跳跃匹配策略,并利用本文设计的相似度度量方法,实现中英文混合环境下的抄袭检测。再次,本文设计了基于B/S三层架构的反抄袭系统的设计构思,并实现了用户注册模块、文档提交模块、文档筛选模块、抄袭检测模块、数据库管理模块的功能。系统设计采用HTML作为系统文件,通过在PHP程序中嵌入SQL语句访问数据库信息,用Apache 2.2.6作为Web服务器,MySQL 5.0.51作为后台数据库支持,并在Unix虚拟环境下采用C语言实现对PHP函数的功能扩展,最后用户可以通过浏览器访问本系统。最后,本文详细介绍了反抄袭检测系统功能模块的实现,包括用户注册、用户登录、文档提交、文档筛选、用户信息维护、文档库的更新等。并设计两组实验验证了文档筛选模块和抄袭检测模块的可行性。