科研主题演化过程中的词语迁移研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:lx90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科研主题演化及主题内容分析,是信息科学相关领域长期关注的问题。目前数量庞大的学术文献既为科研主题分析提出了挑战,也为学术文本挖掘工作提供了充足的资源。科研主题是动态演化的,在一个科研领域的发展过程中,新兴主题涌现,已经形成的主题越发活跃成熟或者逐渐老化衰退,各个主题的研究内容不断变化,单一主题发生分化,多个主题之间产生融合。理解科研主题的演化过程并对其进行深入的内容分析,可以帮助新入领域的研究者了解领域概况,促进领域专家之间进行领域内部和跨领域的知识交流,向科研基金管理机构和政策制定者提供科学创新的发展轨迹,帮助决策者跟进领域知识的流动情况。鉴于科研主题研究的重要性,以数据挖掘领域为代表的各学科均对其投入了很大的关注,相比之下,情报学领域对于科研主题演化的研究成果较少,对于演化动态和演化过程中主题结构变化的分析尤为欠缺。而在数据挖掘等计算机科学相关领域中,由于学科本身技术导向的特性,对于科研主题演化的考察比较注重演化模型的构建和优化,研究成果疏于探讨主题间的知识交流情况和主题在不同时期的发展状态,以及更进一步深入到词语层面的内容分析。目前以情报学和数据挖掘领域为代表的信息科学相关领域对科研主题演化分析的现状是,情报学领域缺少先进的技术方法对主题结构的动态演化过程和词语在主题中的分布变化进行识别和抽取,数据挖掘领域由于其技术导向的特征,缺乏对于科研主题深入的内容分析。基于上述认知,本文结合数据挖掘和机器学习等领域的主题建模和文本挖掘方法,以及情报学领域注重内容分析的优势,以信息检索领域的学术文献为例,对科研主题的演化过程及演化过程中各主题下词语的分布及语义变化进行考察。共计七个章节。第一章引言,主要介绍选题背景与研究意义,国内外研究现状,本研究的内容、方法及创新之处。第二章理论基础,包括科学范式的转变,贝叶斯网络和主题建模原理,以及词语语义和词语迁移概念的界定,为后文进行主题抽取,演化研究和词语在主题中的分布研究提供理论支撑。第三章科研主题的划分与确定。基于LDA主题模型对科研文献构成的文本数据集进行了主题抽取和分析。选取的研究样本为信息检索领域的研究论文,数据来源为Web of Science数据库,时间检索跨度为1956-2014,检索结果共计20359条文献数据。共计抽取五个主题,作为信息检索领域的重要主题进行后续的演化研究和词语分析。第四章对科研主题的演化过程进行分析,对信息检索领域五个重要主题的生长趋势和演化动态进行识别和考察。在生长趋势分析中,对LDA主题模型训练结果中的文档-主题概率分布按年分组进行聚合,从而得到每一年每个主题下的内容占当年文献总内容的比例,以表示各主题在对应年份的活跃程度。针对目前研究对主题活跃度的测量仍停留在对发表文献进行简单计数的基础上,本章的生长趋势分析结果较好地保留了一篇文档以不同比例包含多个主题的特性。在演化动态分析中,针对目前主题演化研究对主题分化融合,知识交流和不同时期的发展阶段分析的不足,对应上述三点展开了研究。整体语料被划分为六个时间窗口,每个时间窗口另外抽取存在于该时间段内的局域主题,第三章抽取的五个主题称为全局主题。全局主题内部和主题之间的知识交流情况,由局域主题之间的分化融合表示。通过计算主题之间词项概率分布的相似度,可以得到全局主题与局域主题之间的相关关系,以及相邻局域主题之间的分化融合情况。不同时期局域主题与全局主题的相关性,能够反映全局主题在这一阶段的发展状态。第五章在前面章节的基础上,将科研主题演化分析深入到词语层面,重点关注科研主题演化过程中的词语迁移现象。科研主题表达为具有语义功能的词语的集合,科研主题演化过程实质上是与词语相关的创新和应用的变化。从词语分析入手,是进一步理解科研主题演化过程的关键。本章首先阐述了词语迁移现象存在的普遍性,并对词语迁移的定义进行了表述,即:相同的词语出现在不同的主题当中。类比现实世界中普遍存在的迁移现象(如人类种群的地域性迁移),词语相当于人群,主题相当于不同的地域。并对词语迁移的类型,稳定性和词语在迁移过程中的语义变化进行了测量和分析。第六章对词语迁移活动存在的一般性规律进行了验证和分析。提出了词语迁移规律的三个假设,其一为相似性假设:具有相似上下文的词语具有相似的迁移方向;其二为多样性假设:语义多样性较强的词语具有较高的迁移程度;其三为凝聚性假设:主题中的重要词语具有较低的迁移程度。根据信息熵理论,本章首先对词语迁移程度进行了定量化表示,以方便后文对词语迁移规律的验证。相似性规律表示的是词语语义相似性与词语迁移方向之间的关系,基于word2vec词嵌入模型将词语表示为词向量,词语语义相似性由词向量之间的余弦相似度表示。多样性规律表示的是词语语义的多样性与词语迁移程度之间的关系,词语的多义性通过计算词向量在K最近邻网络中的局部聚类系数表示。凝聚性规律表示的是词语对于主题的重要性与词语迁移程度之间的关系,词语的重要性通过在主题中的tf-idf值的计算表达。第七章对全文研究进行总结与展望,包括研究结论,研究不足与展望。经过理论与实证分析,本文得到以下三个方面的结论:(1)信息检索领域五个重要主题的发展演化,总体上遵循从调整期到成熟期的发展阶段过渡过程。部分主题在发展成熟后,可能重新进入调整期,在经历新知识的引入和主题内容重组后,达到一个新的发展成熟期。由主题分化融合活动反映的主题知识交流,既在主题自身内部发生,也在主题之间形成。领域内率先发展成熟的主题在后续发展独立的主题的形成阶段会产生知识输出,相对地,后续发展独立的主题也会反馈本主题创新的技术和方法向其他主题形成知识流动。部分主题由于研究范畴在本领域的独特性和自身研究内容的凝聚性较高,与其他主题之间的知识交流较少,从而形成一条较为封闭的主题发展路径。(2)科研主题演化实质上是主题下具有语义功能的词语发生的变化。理解科研主题中的核心词语在不同时期发生的变化是对科研主题演化进行深入内容分析的关键。本文将科研主题演化过程中,相同词语在不同主题中出现的现象定义为词语迁移。词语迁移现象关注词语语义的变化,在科研主题演化的过程中,实际上对应的是与词语关联的创新和应用的变化。词语迁移活动可分为无迁移,双主题迁移和多主题迁移三种类型。当主题中的多个词语均表现出向其他主题迁移的趋势时,表示与这个主题相关的研究问题在本领域的热度下降,主题整体处于收缩和衰退的过程当中。在词语迁移的稳定性方面主要关注了收敛型迁移词语和发散型迁移词语。词语的发散式迁移过程反映的是词语语义由主题普遍性向主题特异性发展的过程,与之相对,词语的收敛式迁移通常反映与词语相联系的研究和应用在多个主题当中均获得了关注,成为领域的热点研究问题。(3)通过考察词语上下文相似性,语义多样性和在主题中的重要性与词语迁移方向和迁移程度的关系,本文提出关于词语迁移活动的三个一般性规律。其一为相似性规律:具有相似上下文的词语具有相似的迁移方向;其二为多样性规律:语义多样性较高的词语具有较高的迁移程度;其三为凝聚性规律:主题中的重要词语具有较低的迁移程度。研究表明,信息检索领域各主题下高概率词语的迁移活动验证了关于词语迁移的三个规律。相似性规律方面,上下文相似的词语主要包括近义词和共现词组两种类型,这类词语通常具有相似的迁移方向,但当多个词语互相之间经常共现时,这些词语之间的语义会相互影响,使得在迁移过程中形成不一致的方向。多样性规律与凝聚性规律存在一种相互制衡的关系。单纯考虑多样性规律时,词语的语义越单一,越容易稳定在一个主题中,此时将凝聚性规律也加入考虑,语义单一的词语可能对多个主题都很重要,或者说虽然这个词语总是与相同的上下文共同出现,但常常被多个主题同时使用,那么也会使得词语在多个主题中形成迁移。
其他文献
计算机视觉领域的研究涉及众多的学科,而运动目标的跟踪技术是其中重要的研究方向之一。近年来,随着计算机图像处理、模式识别、人工智能以及相关学科研究的不断深入,目标跟踪技术也得到了长足的进步。目前在这一领域的研究主要集中在两个大的方向上,其一是基于先验知识的目标跟踪技术研究,在获得初始的目标运动信息的基础上进行目标的跟踪;其二是不依赖于先验知识的目标跟踪技术研究,通过在视频中识别并检测出感兴趣的目标完
接触式图像传感器于20世纪80年代末面世,1998年首次应用于扫描仪,21世纪初开始广泛应用于金融机具中,例如点钞机、清分机、ATM机等,目前仍处于发展阶段。在金融机具应用背景下,接触式图像传感器的图像存在分辨率丢失、三色分离及噪声问题,对于这些问题的研究,目前仍处于起步阶段。本文将金融机具应用背景下的接触式图像传感器的彩色图像作为主要研究对象,旨在采用软件算法的方式解决其分辨率丢失问题、三色分离
云计算和大数据时代,数据比算法更能深刻的影响计算结果。根据需求度量价值的原则,以按需服务的视角来理解价值,那么价值即服务,即VaaS(Value as a Service)。从数据中发现价值信息并为用户所用,就可以理解成从数据中按需进行价值服务发现的问题。面对互联网上的各种数据资源,如何从中获取知识以支撑价值服务的发现成为亟待解决的一个重要问题。数据规模的剧增以及数据本身结构的复杂性,增加了价值服
SaaS软件所处环境的开放性和动态性导致其在长时间运行过程中可能出现性能降级问题,根据动态变化的环境快速优化SaaS软件的部署方案是应对该问题的一种有效途径。然而,SaaS软件的服务化特点及其运行平台的硬件虚拟化特点使得传统的部署优化方法无法直接用于解决SaaS软件的部署优化问题。为此,本文针对SaaS软件的部署特点,提出了一种能够在运行时自动为SaaS软件寻找性能最优部署方案的方法,具体内容如下
由于包含信息量丰富,且直观易懂,图像视频在数字传媒、智能系统、社交娱乐、网络直播、监控安防和军事侦查等多个领域都有重要应用。上述应用通常以对图像视频内容进行准确理解和可靠编辑为前提,而人类视觉感知系统对色调高度敏感,因此以色调为线索或载体进行图像视频内容理解和编辑受到了大量的关注,现已发展成为计算机图形学、计算机视觉和图像视频处理领域的一个热点研究问题。色调敏感的图像视频内容理解与编辑以色调信息为
近年来,随着计算机硬件设备的迅速发展和进步,图像采集设备逐渐在人类生活的各个领域得到了广泛应用,从而使得计算机视觉领域中以运动目标图像为研究对象的目标跟踪技术受到国内外研究人员的广泛关注。目标跟踪技术是一门融合了数字图像处理、模式识别、机器学习、数理统计、生物学以及心理学等多方面前沿理论的跨学科综合技术。目标跟踪技术作为计算视觉领域中的核心技术之一,目前已经融入到人类生活的各个方面,特别是在智能视
通过高速网络连接,各类计算资源互联构成了一个庞大的全球计算机系统。资源请求因资源以云服务形式分享而无处不在,这一转变正在改变每个人对计算能力获取、消费和提供等方面的使用习惯。各主要国家和知名企业纷纷推出云计算发展规划,加快建设云计算平台。然而通过网络请求使用云服务具有动态开放的特点,采用面向固定环境的传统编程方法开发云服务系统并非易事。一方面云服务供应商捆绑使得部署在不同云平台的云服务难以直接集成
在处理有序集时,优势粗糙集理论将决策者的偏好考虑在内.因此,该理论可以发现和处理由于考虑准则所带来的不一致,并且该理论的提出极大地促进了涉及偏好信息的多准则决策问题的研究发展.本文主要研究优势粗糙集理论和该理论在复杂系统以及与其他理论相结合等方面的扩展,关注的主要对象为序决策系统的属性约简问题.第三章主要考虑基于辨识矩阵的序决策系统属性约简问题.首先,建立一致和不一致序决策系统的辨识矩阵.为了降低
作为云计算和服务计算的结晶,云服务通过云计算方式(如SaaS或PaaS等)提供服务集成和价值增值功能,以满足用户多元化的业务需求。云服务组合功能是通过多个云服务交互协作而实现,所以云服务交互是其组合的基础;而交互机制负责整个云服务系统中各组件通信和协作,是系统神经中枢,直接影响云服务系统性能。由于云服务具有分布性、并发性和容错性,因此如何设计与开发云服务交互机制是云服务研究中一个挑战性问题。当前云
随着物联网、云计算以及“互联网+”等相关应用的不断深入,用户在享受互联网技术带来便捷的同时,也陷入了“信息过载”的困境中。用户在满足信息需求的过程中,发现自己已经迷失在信息的海洋中。推荐系统作为一种个性化的信息服务形式,能基于用户兴趣偏好来进行主动的实时推荐,并且已经被广泛的使用在了各大购物网站中。同时,随着不同组织对数字文献资源建设力度的加大,用户在享受数字文献资源便利性的同时也遇到了一些困难,