基于文本相似度的论文查重方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:Garyzhaoqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,我们比以往任何时候都迫切地需要高效、全面、方便的学术信息。但另一方面,我们要防止学术抄袭。目前,高等学校研究生教育质量日益得到关注,而学位论文是反映培养质量的主要指标,所以有必要开发一个学位论文的查重系统,对学位论文进行监管和规范。论文查重最关键的是文本信息的处理,在中文信息处理中,文本相似度的计算广泛应用于信息检索、文本挖掘等领域,是一个非常基础而关键的问题,一直是人们研究的热点和难点。这一课题的研究对论文相似度的判定,都将具有一定的参考价值和良好的应用前景。   本文首先介绍了课题的背景和论文查重的意义,概述了文本相似度判定所涉及的相关技术,详细阐述了论文查重的核心方法,并以真实的学位论文信息为研究对象,对学位论文信息文本相似度进行了研究。随后分析比较了现有的文本相似度计算方法,利用基于向量空间模型的TF-IDF方法结合分词系统,给出了中文文本分词及相似度计算的计算机系统设计、实现过程。通过对本文中的算法进行实验,并对计算结果进行分析和评价,效率也比较高,效果令人满意。
其他文献
关联规则是数据挖掘的一个重要研究方向,用于寻找数据库中不同项或属性间的相关性。而在关联规则中最常使用的方法为Apriori算法,但其存在一些缺点,例如,产生大量的候选项集,
以用户主导的Web2.0技术已逐渐替代传统互联网模式成为目前音乐服务的主流技术。然而由于其允许用户自由上传和分享音乐相关数据容易导致出现信息过载的问题,海量的数据给音
Web信息的快速增长,给信息检索系统带来了巨大挑战。传统的检索模型需要在一个相对固定的数据集上通过训练得到,不具备开放的学习功能,而Web上的信息[0]是实时更新的,检索模
随着嵌入式Internet技术的发展,家居的智能化是当前的一种发展趋势,智能化逐步渗透到家庭生活中,如信息家电、水电自动抄表系统、安防系统等。家居远程监控系统是智能家居的
介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方
新一代的万维网——语义网,使自动化处理信息和信息的机器理解更加容易。然而随着网络的发展,大量含糊的不确定的模糊信息也需要表达和推理。这就需要一种能够处理模糊信息的
计算机现实模拟是计算机图形学和现实世界表现相结合的产物,流体模拟则是计算机现实模拟领域的一个重要研究方向。大多数流体模拟研究均采用基于物理的模拟方法,需要考虑周围
下一代网络(NGN,Next Generation Network)技术的发展已经进入成熟阶段,国内通信运营商在其技术优点的驱动下大量进行国内的NGN网络建设,大约每年以30%左右的速度增加。目前
建立在统计学习理论和结构风险最小原则上的支持向量机在理论上保证了模型的最大泛化能力,因此与建立在经验风险最小原则上的神经网络模型相比,理论上更为完善。支持向量机是
随着互联网的迅速发展,人们通过网页分享与交流着大量的信息,如何快速全面准确地获取互联网上的信息,成为人们迫切关心的问题。网页话题识别研究将为网页搜索与检索、经济决