基于主题模型的知识结构发现及其演化机理研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:alabo353
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学研究的泛化、交叉和渗透使各领域研究呈现出交错复杂的局面,研究内容的多样化为我们理解与掌握知识内在结构及其演化机理带来一定的困扰,浩瀚的知识和有限的个人精力之间的矛盾不可避免。尤其对新接触某领域的学者来说,想要全面、快速了解该领域的知识结构及其演化机理往往需要很多的工作量。分散的知识点、非结构化的信息不利于知识结构的形成,也阻碍了演化研究的进一步开展。针对这一问题,本文提出一种层次化的科学知识结构发现方法,并在此基础上进行知识主题演化和预测,进而分析科学领域的研究现状与发展趋势。论文的主要工作分为以下两个方面:(1)层次化科学知识结构发现。在对目前主流的知识结构发现方法进行归纳分析的基础上,运用LDA主题模型设计了层次化科学知识结构发现框架。该框架自上而下分为数据层、逻辑层和展示层。首先,在文献预处理部分,抽取语料库中的“双连词”作为主题模型建模文件的输入,大大提升了主题的可表征性,使得到的知识主题更契合普遍认知,易于理解。其次,引入主题间平均相似性,在保证主题间区分度的基础上确定知识结构终止层。另外,还设计了在“文档-主题”概率矩阵中自动筛选阈值的算法,平衡主题质量和文档范围之间的关系,帮助知识主题确定下层文献子集的范围。最后生成知识结构层次树用于结果的可视化。我们选取“云计算”领域近十年的中文文献作为数据集进行实验验证,通过与传统层次化方法的对比,本文提出的方法在文档隶属度、时间复杂度、单层主题区分度和层间主题继承性方面均有较大提升。(2)知识主题演化机理研究。主要包括基于马尔可夫的主题稳态演化与预测和基于隐马尔可夫的主题热度演化与预测这两部分。前者是在分析主题演化规律的基础上,以主题间相似矩阵作为马尔可夫模型中的转移概率矩阵,分析主题的演变转移过程,对主题的稳态分布进行预测。后者采用主题下所包含文章的下载量、被引量和发文量三大指标综合评判主题热度,并提出主题纯度的概念,构造热度转移矩阵和混淆矩阵,以隐马尔可夫理论为基础进行场景建模,分析不同状态划分下的模型优劣情况,以主题纯度预测主题热度。最后,我们以“云计算”领域层次化知识结构中的知识主题作为模型验证的对象,与灰色模型相比,我们的模型平均相对误差较小,预测精度较高。本文构建的层次化科学知识结构发现方法可以发现领域中层次化的知识结构和研究主题,并解决其演化预测的相关问题,可以较准确的反应出领域的研究现状与演化机理,为领域发展决策提供参考。
其他文献
作为一家知名度和美誉度颇高的优秀书(画)类学术期刊,《书画世界》杂志自1992年创刊以来,便伴随着中国书(画)艺术的发展,为当代书(画)艺术的研究提供了宝贵且丰富的资源,因而
生物特征识别已广泛应用于监视应用,法医学和刑事调查。由于生物识别系统可以提供比传统的个人身份验证系统(例如令牌或密码)更高的安全性解决方案,其中令牌可能被盗,长密码或密码难以记忆并且可能被遗忘。此外,随着对法医学和诸如访问控制,移民和商业应用等安全领域的更多安全系统的需求的增加,生物识别系统最近引起了很多关注。近年来,耳印由于其显著的优势,受到了生物统计学界的广泛关注。人耳很大并且可以获得,对年龄
美国作为世界上教育管理制度最为完善的国家之一,非常重视教育法治,在公立中小学不合格教师退出方面更是具有完备的管理制度,积累了丰富的管理经验。美国公立中小学的不合格
在党的十九大报告中,习近平总书记指出,眼下我们国内和国外的形势正在发生深刻复杂的变化,而目前仍然是我们国家发展壮大的重要战略机遇期。在这特殊的环境下,我们的前途是光
人工蜂群(ABC)算法是一种模拟自然生物群智能的优化算法,对于处理连续函数的优化问题具有较强的适应性。目前,已被广泛用于机器学习、组合优化、数据挖掘等诸多领域。然而,ABC算法具有着诸多优点的同时,也存在着诸如收敛速度较慢、较易陷入局部最优等缺陷。膜计算是生物计算领域的一个分支领域,其计算模型被称为膜系统或P系统。P系统具有分布式、并行性、可拓展性、非确定性、易于实现等优点。本文针对ABC算法存在
中央全面依法治国工作会议明确了习近平法治思想在全面依法治国工作中的指导地位,这是我国社会主义法治建设进程中具有重大现实意义和深远历史意义的大事。党的十八大以来,习
提高图像分辨率是当前数字图像处理领域的研究热点之一。超分辨率(SR)方法是一组信号处理算法,它允许从同一场景的单个或多个低分辨率(LR)图像生成高分辨率(HR)图像。不久前,深度神经网络(DNN)被引入到计算机视觉、机器翻译、自然语言处理、语音和音频识别、社会网络分析、生物信息学、医学图像分析和材料检验等领域。卷积神经网络(CNN)也被广泛应用于彩色图像和深度图的超分辨率问题,在相同场景的额外HR
语音情感识别一直以来都是计算机视觉和机器学习领域的研究热点,“情感计算”这一概念在近几年已经引起了国内外许多情感分析专家的关注。说话者的语音信号中往往包含了丰富的情感信息,来帮助他更好的传递信息。同一个人用不同的情感表达同一句话时,其传递的信息可能不太相同。为了使计算机更好地理解人的情感,就必须提高语音情感识别的准确率。如今,语音情感识别在人工客服,远程教育,医学辅助,和汽车驾驶等人机交互领域的应
电力电子技术堪称是全球第二次电子革命,如今关系着人们的生产生活以及国家的经济、政治及国防。以功率半导体器件为核心部件的电力电子技术是当今最高效、最可靠、最灵活的电能变换与控制技术,已被广泛应用于家用电器、汽车电子、高压输电、武器装备等诸多领域。功率半导体器件中的横向双扩散金属氧化物半导体场效应晶体管(LDMOS)因具有MOSFET类器件的易驱动、开关频率高等优势以及易于集成的横向结构,而被广泛用于
近年来,神经网络在越来越多的领域中投入使用,在一些人工智能领域的场景下(例如图像分类,语音识别)已经产生了非常好的结果。随着神经网络的应用越来越广泛,对神经网络相关的性能及准确性要求也越来越高,特别是在一些安全攸关系统(例如自动驾驶、飞行器防碰撞系统)中,这些系统中特殊的场景需求对神经网络的可靠性和准确性提出了更大的挑战。尽管神经网络在许多场景下都有令人印象深刻的表现,但遗憾的是,由于种种原因它们