【摘 要】
:
目前,随着互联网的快速发展,网络信息资源日益丰富,人们的信息交流的方式变得日益便利。然而由于文本,图片,视频等网络电子资源便利的复制基础,从而导致网络资源过多的冗余,降低了网
论文部分内容阅读
目前,随着互联网的快速发展,网络信息资源日益丰富,人们的信息交流的方式变得日益便利。然而由于文本,图片,视频等网络电子资源便利的复制基础,从而导致网络资源过多的冗余,降低了网络搜索引擎的检索效率,同时加大了信息抽取的难度。近年来一些高校里也频繁出现了作业抄袭,论文抄袭等现象。为了提高网络信息检索效率、保护知识产权,以及端正学术风气,文档复制检测技术成为了自然语言处理领域的研究热点,其研究意义十分重大。本文对文档复制检测方面做了详细研究,在前人研究的基础上,对基于句子相似度计算的文档复制检测方法作了改进,很大程度上提高了文档复制检测效率与检测准确率。首先,本文针对文档复制检测的背景、意义、国内外发展现状及相关技术作了详细介绍,并分析了目前常用文本复制检测算法的优缺点。其次,基于传统的BSP复制检测算法,提出了基于有序最长公共关键词序列的句子相似度算法及基于关键词距离的句子局部复制检测算法,同时设计了词语-句子,句子-文档的倒排索引结构,有效地提高了复制检测准确率与检测效率。再次,基于本文提出的文本复制检测方法,设计实现了一款文本复制检测系统。根据实际应用需求,系统主要功能包括文档注册、文档检索、同义词维护、本地复制检测、分布式复制检测,在线复制检测、网络设置、系统设置、文档库管理等。最后,实验表明:结果本文所研究的文档复制检测方法的实用性和有效性。
其他文献
<正>冠状动脉粥样硬化性心脏病是指冠状动脉发生粥样硬化引起管腔狭窄,导致心肌缺血缺氧或坏死而引起的心脏病,简称冠心病,是动脉粥样硬化导致器官病变的最常见类型,也是严重
目的:淀粉样前体蛋白(APP)经过β-分泌酶和γ-分泌酶水解,释放出Aβ肽。Aβ肽是淀粉斑的核心成分,它的过多生成或聚集被认为是阿尔茨海默病致病的主要原因。APP蛋白还有另一条非淀
在考虑相变的热能平衡方程和非饱和水分迁移质量控制方程的基础上,建立温度场-水分场的耦合模型,并采用一种无网格粒子算法(SPH)进行数值求解。其中,耦合方程中考虑了水流传
移相干涉显微系统在表面形貌测量领域具有诸多突出的优点,如系统结构简单,抗环境干扰能力强,可实现三维非接触定量测量,分辨率高等。因而被广泛应用在各大领域微细加工表面形貌的
健美操是集娱乐、竞技、音乐于一体的体育运动,深受人们的喜爱,它分为大众健美操和竞技健美操。大众健美操就其作用目的而言又叫健身健美操,是全民健身的重要运动项目。竞技
<正>脾胃虚寒型胃脘痛是临床上常见病、多发病,患者多年老体弱,单纯药物治疗也较棘手,近几年来,笔者采用温针隔姜灸综合治疗,收到较好的疗效。现报道如下:
<正>一、引言区域经济能否协调发展,不仅关系到国民经济的发展,也涉及到社会稳定的问题。有效的缩小区域经济差异,促进区域经济的协调发展,才能使不同区域经济发展的不平衡逐
自20世纪80年代初,中原与闽台渊源关系成为两岸关系研究的学术亮点,方言与民俗调查发现固始与闽台有惊人的相似之处。族谱、方志记载的闽台姓氏“家族源流”及迁徙线路,由若干移
团队断裂带是指团队基于多种团队构成特征而分化为几个具有本身同质、彼此异质的差异性子团队的"虚拟的分割线"。本研究从构成、状态、测量及作用机理方面阐述了团队断裂带最
公共租赁住房是满足城市中等偏下收入家庭基本住房需求的社会保障性住房。我国中低收入阶层中仍有大量住房需求需要通过社会保障性住房来满足,因此,公共租赁住房的大规模建设势