论文部分内容阅读
由于构建知识图谱的技术路线复杂,主流研究集中于底层任务的算法创新,完整地实现技术路线并构建图谱的研究相对较少。此外算法研究一般围绕标准数据集展开,此类文本的风格一致、表述规律,抽取结构化知识的难度相对较低。然而实际中更多的是多元异构、有噪音的数据,因此如何以较小的成本实现高质量知识抽取是当前的研究难点。进一步地,产业知识图谱是当前一个热门的研究领域,主要研究目标是从文本数据中提取产业相关的结构化知识并将其应用于下游任务。目前学界在公司、人物等类型的知识抽取上取得了较大进展,但是对产品、技术等复杂实体的研究仍然相对缺乏,而此类知识对于梳理上下游产业链具有十分重要的意义。针对以上挑战,本文展开产业知识图谱的技术以及应用研究,主要研究了面向数据特性的实体识别、关系抽取等知识抽取算法,并将其应用于汽车领域从文本数据中提取公司、产品、技术等实体以及生产研发、合作、竞争等实体关系,从而构建一个汽车产业知识图谱,最后利用该图谱分析国内外汽车产业布局。本文的主要工作和贡献如下:(1)提出一种高质量上下文感知的命名实体识别方法。领域实体如产品名的表述相对复杂,但其所在的语料例如新闻文档通常存在丰富的上下文信息。考虑到文档内实体多次出现的概率较高,那么反过来高频出现的字符串是实体的可能性也较大。因此,本文利用样本与文档的公共字符信息找出语义距离相近的字符片段作为目标样本的高质量上下文,然后设计一种深度网络架构,一方面利用公共字符串的边界信息模糊定位实体的边界信息,另一方面利用卷积神经网络融合多个上下文感知的句子表示,由此提升目标句子的实体识别效果。(2)提出一种模板质量分级的半监督实体关系抽取方法。为了减小模型对数据的依赖,该方法首先利用句法工具自动挖掘实体间的表述模板以此剔除相关性低的上下文信息,然后开发一种基于表示学习的自动标注算法,旨在利用少量标注模板预测其他模板的关系类型。为了缓解噪音标注对后续关系分类器的影响,本文还开发一种模板质量评估算法对伪标签的质量进行分级,由此得到与模板一一对应的样本的伪标签和质量评级,最后设计一种基于模板质量的关系抽取模型来不同程度地利用样本标签和语义信息。(3)提出一种基于实体融合的汽车产业知识图谱构建方法。该方法首先利用提出的实体识别和关系抽取方法从非结构化文本提取汽车领域的知识三元组,然后设计一种基于提示学习的无监督实体链接算法将抽取的实体映射到百科词条,最终得到标准的汽车产业知识图谱。该图谱包含5类实体,9类关系,共4761个节点以及12571条边,基于人工抽样的评估和知识检索案例表明图谱的质量与分析能力。(4)提出一种融合汽车知识图谱的产业链构建及其分析方法。为了验证产业知识图谱的应用价值,本文提出一套半自动化的产业链构建方法,结合外部知识获取实体和关系的属性值,并依据属性特征将知识划分到相应的类别,由此将产业知识图谱转化为由概念统领的汽车产业链。然后,本文选取全局和细分产业两个视角对比中国和其他国家的汽车产业布局差异,深入分析中国汽车产业的长短板。综上所述,本文从算法设计、实际构建和应用价值三个角度展开产业知识图谱的相关研究,结果表明面向数据特性的知识抽取算法可以便捷地应用于其他垂直领域,而构建的产业图谱也极具应用价值。