论文部分内容阅读
科技项目检测属于文档复制检测技术的一种应用类型,它规范了科技项目奖励的制度,是检测同一项目是否重复报奖的一项重要措施。科技项目奖励机制旨在对已有的科技成果给予奖励,肯定广大科技工作者的科技成果,并激发与鼓励科技工作者更大的科研热情,为社会与国家的建设做出更大的贡献。由于奖励有一定的份额,为了公平、公正地奖励申报的科技项目,需要对申报的科技项目进行检测从而防止项目的重复申请。本文首先提出了最长回溯分词算法来进行中文句子的分词,从而提高分词的准确性;其次,根据科技项目申报书的结构特点,本文设计了科技项目检测系统的体系结构以及相应检测算法。本文按照不同的组成部分,采用不同的相似度检测算法计算其对应的相似度。例如,按照本文提出的基于N-gram的VSM模型的思想,构建正文检测相似度算法,对正文中相同词频不同词序进行相似度判断。本文还详细介绍了科技项目检测系统的各功能模块的构建与实现,这些模块包括预处理模块、内容解析模块、相似度计算模块、结果显示模块。此外系统提供了检测选项,工作人员可以选定每次需要进行检测的项目组成部分。最后,在上述的基础上进行了大量的实验,实验证明,该系统具有较强的实用性,有助于提高工作的效率,同时总结了作者所作的主要工作及本文的创新之处。