论文部分内容阅读
随着信息爆炸式的增长,网络上存在大量非结构化、异构化的数据,这些数据存在类型多样、数据量大、内容丰富、动态性强和无序性大等特性,给用户准确快速地获取学科领域前沿热点知识、发展历史、前沿领域以及整体知识架构带来了巨大挑战,容易出现“信息迷失”问题。目前关于学科领域前沿热点知识图谱的构建大多集中在利用文献计量方法综合研究科学知识图谱领域发展状况的研究,主要以领域的文献量、高产作者、主要机构、地区等现状问题进行详细描述,分析了该领域的知识基础,探索了该领域的研究热点和前沿问题。然而领域前沿热点知识的发展轨迹和起源属性关系对于学习者学习和理解领域前沿热点知识,梳理领域前沿热点知识的发展趋势、追溯领域前沿热点的源头和发现每个子领域历史关键人物等具有重要意义。通过大量文献阅读和调研,目前还未发现针对这一课题方向的研究。因此,领域前沿热点知识的起源属性关系抽取工作是具有重要的研究意义和应用价值。本文对多属性领域前沿热点知识图谱构建开展了以下工作:第一,考虑了社会网络中文献传播的普及,提出了一种用于热点主题挖掘的新颖方法。将文献热度属性分为传统和社会属性,在社会网络环境中构建文献热度评价模型,计算和分析文献关注度,挖掘具有社会传播影响力的学术论文和学科领域前沿热点知识;第二,为了更深入地了解该学科领域的演化趋势和研究重点、理解和梳理领域前沿热点知识,提出了领域前沿热点知识起源属性关系抽取方法。第三,提出领域前沿热点知识起源属性关系的定义,根据定义建立了领域前沿热点知识起源属性关系推理体系,为不同语义结构、不同模式的领域前沿热点知识起源属性关系表达构建正确的句法分析机制,利用热点知识概念的起源特征词设计知识起源属性关系模式;第四,在定义与推理模型的研究基础上,提出了最近句法依赖动词抽取方法,对于不同的领域前沿热点知识起源属性关系模式,采用不同的方法模型挖掘领域概念知识起源。结果表明,该方法比同类关系抽取模型表现出更好的实验性能,能快速有效地挖掘出领域前沿热点知识的起源属性关系;最后,构建并绘制了“人工智能”多属性领域前沿热点知识图谱,这些图谱能够准确地挖掘学科领域下热点知识集的演变体系,清晰地展示该领域前沿热点知识、前沿知识概念的发展轨迹以及各个子领域的历史重要人物迁徙,揭示学科领域的动态发展趋势,为学科建设提供有用的参考价值。