基于领域本体和词序特征的科技文献查重方法研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:lcp396526202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:科技文献查重在现阶段常采用文本相似度计算自动识别科技文献重复性,然而,面向科技文献的独特性,如何提升文本相似度计算的准确率和效率,仍是个值得探讨的问题。
  关键词:领域本体;词序特征;科技文献查重;相似度计算
  1.国内外研究现状
  在国外,Deerwester等人提出的Latent Semantic Indexing(LSI,即,隐性语义索引)[1]现阶段已被广泛应用并达到较好的文本相似度计算效果,隐性语义索引得到的结果比基于词频统计得到的结果更符合人类的阅读思维方式,很大程度上提高了检索结果的准确性,目前很多数据服务提供商和搜索引擎的算法都引入了该算法。Google就是典型的代表。LSI也是一种向量空间模型,在原来向量空间基础之上做了一定的扩展,它不用对自然语言去理解,而是用统计的方法反映词语之间内在的相关性,有很高效率。
  国内专家学者研究文本相似度的计算过程中高度重视中文语义的识别,通过文本主题识别、语义相似度计算等方法提升相似度计算准确率,也有一些专家学者以词语为研究对象,研究同一文本中不同词语间的关联信息。李善青提出一种整合科技项目相关产出信息的数据模型,采用文本相似度计算判断项目重复率,也有一些学者引入领域本体提升相似度计算准确率,或者直接采用词序特征辅助文本语义的识别,但尚未有两者结合并应用于科技文献查重领域,同时在查重算法的准确率和效率上仍留存一定的欠缺。
  2.关键技术
  2.1领域本体的构建
  本体论(ontology) 是以一个数据模型(data model)去描述知识域 (knowledge domain)的概念、特性及概念之间的关联,并建模于语义网络(semantic network)中。它提供一个有系统性、可重用及便携式的知识表述(knowledge representation)给予计算机软件系统去推理(reasoning)、挖掘(mining)、联系(co-relating)、解译(interpreting)本体内容的语义意思。
  针对科技文献大数据构建的本体主要包括本体形式化描述语言、本体开发工具的选择两方面。本体形式化描述语言直接影响本体模型的表达能力和扩展能力,选用OWL(Web Ontology Language)進行本体描述。OWL的优点是以Web资源为描述对象,并且是基于描述逻辑的。
  2.2词序因子与领域文本的结合
  通过领域本体进行语义相似度计算可以扩充关键词范围,并挖掘出与关键词相关的隐性信息。而词序特征能够代表关键词的逻辑性和时序性,因此,将代表着词序特征的词序因子直接引入领域文本概念相似度计算公式,从而实现两者的结合。对于领域本体,当两个概念具有某些共同特征时,则定义它们是相似的,用sin(A,B)表示概念A,B之间的相似度,A与B间的相似满足以下几点:1、sin(A,B)大小满足sim(A,B)∈[0,1] ;2、如果两个概念完全相同,则sim(A,B)=1 ,当且仅当A=B;3、如何两个概念没有任何共同特征,则相似度为0,即sim(A,B)=0
  本体中的概念相似性与语义距离相关,语义距离是指本体树中连接两个节点的最短路径所跨的边数。本文采用语义距离来表示语义相似度,记作Distant(A,B) ,语义距离和语义相似度满足以下几点:1、两个概念距离为0,则其相似度为1;2如果两个概念距离为无穷大,则其相似度为0;3、两个概念词语义距离越大,则其相似度越小,反之亦然。由此本文采用以下公式定义两个概念相似度:
  其中α是可调节参数,此处引入词序因子,通过两个词语的词序因子的差值计算作为调节参数。
  3.基于领域本体和词序特征的科技文献查重方法
  本文提出了一种基于领域本体和词序特征的科技文献查重方法,通过对文献文本的相似度计算判断文献是否重复,该方法中应用的领域本体是通过历年的科技文献资源构建的领域本体。该方法通过提取文本的特征词汇后得出每个特征词的词序因子,这些词序因子代表了各特征词在文中的位置,能体现在文本的逻辑性。当文本引入领域本体进行词语消歧和同义替换后,在进行概念相似度计算的环节中,引入特征词的词序因子,计算出词语间的相似度值,根据词序因子和各特征词的相似度值进行统计后将得出文本相似值,从而达到科技文献查重的目的。
  4.算法实现
  以科技项目查重为例来举例说明本文的科技文献查重方法,实验数据来源于历史科技项目申报数据、当前申报项目信息等构成的科技文献数据,这些数据主要包括项目名称、申请年度、学科领域、依托单位名称、依托单位类型、以及申报的主体文本等,同时,历史数据还具有是否立项的标签信息。算法主要步骤如下:
  第一步:构建领域本体:从历史科技项目申报数据中获取。
  第二步:对历年的科技项目立项信息数据进行中文分词后再进行去停用操作,提取出历年的科技项目立项信息数据的特征词,对每一年的科技项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
  第三步:对待查重的新申请项目进行中文分词后再进行去停用操作,提取出该项目立项信息数据的特征词,对该项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
  第四步:将待查重的新申请项目的词序因子和每一年的科技项目立项信息数据的词序因子引入领域本体中概念相似度计算得出查重结论。
  其中,第二步实现算法描述如下:
  S21:将历年的科技项目立项信息数据组成数据源C={C1,C2……Ci…},读取其中任一文本Ci,对文本Ci进行中文分词,将得到的分词去停用词,得到向量特征词A=(A1,A2,……,An);
  S22:用领域本体对向量A进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量A’=(A’1,A’2,……,A’m) ,其中m<n;
  S23:通过隐马尔可夫模型,计算特征词向量A’的词序因子序列αi=(αi1, αi2,……, αjm);
  S24:重复步骤S22-S23得到每一年的科技项目立项信息数据的词序因子序列。
  第三步实现算法描述如下:
  S31:将待查重的新申请项目数据进行中文分词,将得到的分词去停用词,得到特征词向量B=(B1,B2,……,Bin);
  S32:用领域本体对特征词向量B进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量B’=(B’1,B’2,……,B’im) ,其中m<n;
  S33:通过隐马尔可夫模型,计算特征词向量B’的词序因子序列βi=(βi1, βi2,……, βjm)。
  第四步实现算法如下:
  将词序因子序列βi=(βi1, βi2,……, βjm)和每一年的科技项目立项信息数据的词序因子序列引入领域本体中概念相似度Kl计算,其中l表示年份:
  其中,Xα 为任一年份的科技项目立项信息数据降维后的特征词向量,Xβ 为待查重的新申请项目数据降维后的特征词向量,Xα为Xα的词序因子序列,bβ 为Xβ 词序因子序列,aα、bβ是可调节参数,通过两个词序因子的差值计算作为调节参数,dist(Xα,Xβ)为语义相似度,语义相似度指领域本体树中连接两个节点的最短路径所跨的边数。
  5.结论与展望
  本文提出一种基于领域本体和词序特征的科技文献查重方法,结合领域本体和词序因子两种方法的优势,在领域本体进行相似度计算阶段引入词序因子,从而达到更好的相似度计算效果。由于科技文献数据类型多样、数据量庞大,接下来需进一步研究将改算法改进成分布式架构和考虑信息融合技术,以适应科技大数据多源异构的特点,使该方法具有更好的适用性。
  参考文献:
  [1]S.Deerwester, S.T. Dumains,G.W. Furmas,Indexing by Latent Semantic Analysis,Journal of the ASIS, 1986-1998,September 1990.
其他文献
摘 要:本文针对滑油在粒子分离器机匣内腔循环散热对气流的温升影响进行了试验研究,并对其散热功率进行了评估。试验结果表明:粒子分离器清除比在12.5%~15%之间变化时,滑油散热功率变化不大,在14KW左右波动;滑油散热引起的清除流温升远高于主流,约为9.1℃,且随清除比变化不大,主流温升约3.7℃,且随着清除流增加,温升稍有下降.  关键词:粒子分离器;滑油散热;散热功率;温升  由于涡轴发动机的
期刊
摘 要:此文就25T钩缓装置出现故障时给列车安全形式带来的影响进行分析,通过相关计算和实验,并且根据实际的经验,来提出相关的故障判据和处理方案。  关键词:密接式钩缓装置;缓冲器;故障;判据  引言:25T型密接式钩缓装置是国内当前25T型旅游列车上使用的主要钩缓装置,在现有和新出产的25T型客车上运用非常的常见,并且保有量非常之多。从04年中旬铁路的第五次提速运行至今,根据25T钩缓装置常见的一
期刊
摘 要:通过对C语言的计算机软件编程开展分析,明确了位运算及算法技巧、指针功能应用技巧等编程要点。在此基础上,对C语言和汇编语言的链接、混合编程、循环语句的优化方法进行了探究,以便促使使用者快速掌握C语言计算机软件的使用方法,为关注这一类话题的人们提供参考。  关键词:C语言;计算机软件;编程;汇编语言  引言:随着时代进步,社会经济飞速发展,计算机技术逐渐成熟,C语言作为计算机的通用语言,也受到
期刊
摘 要:随着经济一体化进程的加快,世界卫生组织为了实现全球供血的需求,在我国已经开始推行采供血质量管理的体系,并且,为今后的采供血机构的质量管理指明了方向,同时,这也为规范和提高采供血机构提供了良好的契机。但是采供血机构质量在管理中仍然存在一些普遍的问题。本文就此提出探讨,并采用积极心理学的方式,对采供血机构质量管理的工作进行优化。  关键词:积极心理学;概述;采供血机构;质量管理;问题;应用  
期刊
摘 要:伴随着我国民航事业的发展,客流量在逐步增多,航线的规划管理也开始纳入人们视野。通过对民航空中交通管制差错成因及风险管理相关问题的综合分析,并就该问题进行了详细探讨与研究。由于涉及面广、梯度深,各方面存在的问题都参差不齐。因此,要解决这些问题,应当结合实际情况,实施相应的民航管理机制,不能够以偏概全,以点带面。本文论述了我国民航空中交通管制差错的若干因素,并且提出了一些发展策略。  关键词:
期刊
摘 要:在工业的发展进程中,现如今我国的工业水准,已基本达到之前所预期的要求。在进行工业生产的时候,温度是其中的重要一大指标,实时监测和测定温度也成为生产中的重要操作。测定温度经常会用到相关的测温仪器。在测温仪器中最常用到的就是热电偶温度计。这项具有优良性能的仪器在使用过程中会存在或大或小的误差,对测定数据的标准性和可靠性有不良影响。消除或尽可能地控制热电偶温度计在使用过程中产生的误差,是目前存在
期刊
摘 要:随着我国社会经济的推进,心理学也开始快速的发展。心理学应用最主要的部分就是技术基础、技术思想以及技术手段。心理学应用中的技术基础主要涉及到了科学和技术。科学和技术的目标、对象以及词语都是不尽相同的,这恰恰也体现出心理学学科与科学技术之间的不同点。心理学应用中的技术思想就包括了心理学理论、方法以及技术研究。在进行心理学研究的时候应该保持着一定的顺序,要按照技术、理论和方法来进行研究和思考。心
期刊
摘 要:积极心理学能够激发青年心中的潜能以及内在的品质,对于青年来讲接受积极的文化,能够对青年的成长起到积极的指导,通过激发青年的情绪提升青年的核心价值观,使其形成了优秀的内在人格特性。本文即将针对积极心理学视野下青年核心价值观培养作为研究内容,希望能够让广大青年自觉的实践社会主义价值观。  关键词:积极心理学;青年;核心价值观  习主席曾提出:我国的青年是决定未来的因素,青年需要自觉的实践社会主
期刊
摘 要:家庭教育环境中的教育方式、教育氛围、教育观念对儿童的心理健康起着重要的影响,对其全面健康成长也有极强的导向作用。良好的家庭教育环境能够有效帮助儿童建立健康的心理体系。论文从儿童心理健康问题、家庭教育环境影响儿童心理健康的因素、良好家庭环境的建设三个方面探讨家庭教育环境与儿童心理健康关系。  关键词:家庭教育环境;儿童;同理健康  随着我国社会的不断发展,我国家庭组织结構、教育环境也逐渐发生
期刊
摘 要:随着我国科技水平的提升,智能手机在我国已经开始普遍,所以手机智能支付已经成为了我们日常生活中的家常便饭。互联网金融是电子商务企业为消费者提供的网络支付结算以及网络融资、保险或者理财等业务。这种互联网金融大大改变了原有的金融模式,让金融机构进行了现代化转型。本文主要从金融机构的组织保障、业务发展以及安全控制和技术支撑几个方面入手,对当前互联网背景下金融机构的转型工作进行了研究。  关键词:互
期刊