【摘 要】
:
随着国内高校科研管理信息化的不断发展,各类科研文档数据迅速增长,如何有效地组织和利用这些科研文档数据,是目前亟待解决的问题。层次主题模型能够挖掘文档集中隐含的主题信息以及主题之间的层次结构关系,可以对数据进行深入地理解和分析。然而,没有融合任何先验知识的无监督层次主题模型往往产生较弱的主题层次结构,为了解决这一问题,本文对融合知识的层次主题模型进行了深入的研究,并对其在科研管理平台上的应用进行了探
论文部分内容阅读
随着国内高校科研管理信息化的不断发展,各类科研文档数据迅速增长,如何有效地组织和利用这些科研文档数据,是目前亟待解决的问题。层次主题模型能够挖掘文档集中隐含的主题信息以及主题之间的层次结构关系,可以对数据进行深入地理解和分析。然而,没有融合任何先验知识的无监督层次主题模型往往产生较弱的主题层次结构,为了解决这一问题,本文对融合知识的层次主题模型进行了深入的研究,并对其在科研管理平台上的应用进行了探索。本文针对具有标题信息的文档数据集,提出了一种新的融合知识的层次主题模型KHLDA(Knowledge-fused Hierarchical Latent Dirichlet Allocation),该模型能在对文档集进行层次化主题建模的过程中融合文档集中丰富的词汇相关性知识,同时还可以有效利用文档标题对文档主题的导向性作用。我们在科研文档数据集上评估了使用该模型进行层次主题提取的效果。实验结果表明,KHLDA模型充分利用了文档中存在的知识,能有效提高模型的层次主题提取能力。此外,本文将KHLDA模型应用于科研管理平台,基于该模型得到的科研文档集中隐含的层次主题结构,实现了从层次主题角度对科研文档的组织、检索和分析,主要包括层次主题可视化、基于层次主题的文档检索与推荐、层次主题演化。KHLDA模型有效地挖掘了科研文档中的潜在信息,丰富了理解和分析科研文档的方式,具有较高的研究和实际应用价值。
其他文献
纠删码技术由于其低存储开销的优势,正逐渐取代多副本技术被广泛应用到分布式存储系统中来提供数据可靠性。但它会引入大量的跨机架流量:修复一个丢失的数据块需通过网络从其他节点上读取多个可用块;更新一个数据块会触发对所有校验块的校验更新。过多的跨机架流量会导致系统中包括纠删码在内的多种应用性能下降。为了提升纠删码的性能,许多新的编码方案被提出,试图从根本上减少网络流量,但其缺点是会牺牲其他性能。另一种优化
掌握词汇是二语习得的必要环节。在词汇习得的音形义三方面中,词汇字形习得指的是学习者通过阅读词汇进而掌握词汇拼写、成功提取其对应的发音及概念,并能够通过口头或书面再现这一拼写的过程。词形习得是第二语言词汇学习不可分割的组成部分,而词形读写能力也是判断受教育程度的重要标准之一。本研究着眼于增强现实技术在二语教育产品中的飞速发展,具体目的在于以实证性的研究设计考查增强现实技术相比传统教学方法对二语学习者
表量结构是人类语言中非常重要的一个部分。量词自甲骨文时代就已经存在,为满足人们对世界的理解和认知需要而产生。随着社会文化生活的发展而不断扩大。世界语言分为单复数标记型及量词标记型,如身为印欧语系的英语和汉藏语系的汉语,但即使是在单复数标记的英语语言中,仍旧有着非常丰富的表量结构,英语中的表量结构形式为“a+N1+of+N2”,汉语中的表量结构形式为“数量名”。可见量词的功能不仅仅局限于计数。丰富的
本文尝试以王子云为研究对象,对王子云早期艺术活动历程与西北文物考察活动展开论述,进而分析王子云艺术探索与艺术“转向”。首先是概述王子云艺术成长历程,当时社会的巨大变动以及外来文化对王子云思想形成产生影响,王子云艺术很大程度是受中西文化思想影响,针对王子云留法以及最终使王子云在艺术道路上选择“转向”,将其艺术活动划分成两个阶段进行概述,明确两阶段艺术活动的具体内容。其次,本文的侧重点仍然是王子云艺术
随着中国城镇化的高速发展,截止2015年,我国在用电梯总数已超过400万台,每年仍以15%-20%的速度增长。近年来电梯事故频发,直接威胁到乘客生命安全和社会经济利益,事故背后主要原因是电梯安装之后的维护保养工作不到位。本文旨在研究影响电梯可靠性和生存寿命的因子,对维修保养服务提出改进建议。首先,将电梯所在城市类型、所在楼宇类型、梯龄、电梯类型四个变量与生存寿命、生存状态联系起来,建立Cox比例风
近年来,燃油中含硫化合物的燃烧产生的SOx会造成许多危害,比如产生雾霾,形成酸雨等天气,而且还会损害燃油品质、降低发动机使用寿命等。随着世界各国更严苛的含硫标准,传统的
战国策派是产生于抗战大后方的一个学术派别,它旨在重建人们对时局的认识,树立“大政治”的意识,改造旧的国民性、官僚政治文化,建立现代民族国家,重建“第三周文化”等等。由于这些特殊的主张,它在学界的评价长期呈现两极化态势,上世纪九十年代以来开始对该学派进行价值重估,不同学者从不同角度予以解释,在文化观、哲学观、历史观方面获得了丰硕的学术成果,但是专门从政治学角度研究该学派的成果还比较少,而且现有研究成
矩阵库名为COS_matrix,出于让实验室研发的数据流编程语言COStream便于进行矩阵操作的目的而对其进行设计与开发,由于宿主语言COStream是基于静态数据流调度的数据流编程语言,因此矩阵库中包含的矩阵操作必须要是COStream可以对其进行工作量估计的,而目前现有的矩阵库无法满足该条件,因此选择开发此库,而不使用其他矩阵库。COS matrix库实现了较多常用的矩阵运算,如矩阵乘,矩阵
近年来,带箱型约束的L2-Lp(0<p<1)最小化问题在信号还原、变量选择等方面有着广泛的应用。然而,这是一类非凸非光滑非Lipschitz连续的约束优化问题,求解非常困难。一般而言,这类问题都是NP难的。本论文致力于研究该类问题的数值算法,主要工作如下:第一个方面,我们通过变量替换,将原问题转化为目标函数在约束域上连续可微且其梯度函数是Lipschitz连续的箱型约束最小化问题。我们