论文部分内容阅读
                            
                            
                                随着国家对科技工作的鼓励及在资金上的大量投入,科技工作者对科研的热情高涨,项目申报的数量也越来越多。然而由于网络的普及与发展,人们获取信息的途径也愈发广阔,这势必会给科技项目评审工作者在项目形式审查过程中带来很大的困惑:对于数量庞大的项目申报书,如何判定项目是否重复申报。而仅通过人工形式进行审查将是不现实的,因此设计一个文本辅助检测系统是非常有必要的。本文针对江西省科技项目申报文本的结构特征,结合语义分析方法来计算文本的语义相似度,并实现了一个科技项目申报文本辅助检测系统,从而为科技项目评审工作者提供自动、公平的决策支持。本文的主要研究工作如下:(1)从文本检测技术角度研究和总结了现有的几种主流检测技术和原型系统的适用性和局限性,结合系统通用体系结构,提出了本系统设计的体系结构。(2)对现有语义分析方法进行了研究,分析比较了这些方法各自的特点,结合中文语言的特点和现有系统开发的使用情况,本文采用了《知网》这种语言知识库,利用《知网》的词语语义相似度来对文本进行语义计算,并对《知网》无法计算未登录词问题进行了改进,考虑了未登录词的语义计算。(3)本文有针对性的研究了几种文本相似度计算方法,总结了各种相似度计算方法所具有的特点和存在的局限性,提出了一种结合文本结构和语义分析的文本相似度计算方法。本方法的主要思想是:将文本表示成不同语义部分的组合,并对文本不同部分采用不同的语义计算方法,并在计算句子相似度时考虑了语义和词序对其影响。同时将本方法与其他方法进行实验比较分析,验证了本文的方法对科技项目申报文本的检测在准确率和召回率上都有所提高。基于以上的研究,本文将提出的新方法应用于系统中:设计和实现了一个文本辅助检测系统,并详细描述了实现本系统所需要的主要功能模块,包括数据存储模块、文本预处理模块、相似度计算模块和分析模块。通过对系统的运行,结果表明,系统能有效检测出相似项目申报书,并能展示详细的抄袭情况,具有较强的实用性。