产业知识图谱的构建研究及其在汽车领域的应用

来源 :唐雨晴 | 被引量 : 0次 | 上传用户:silent_snake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于构建知识图谱的技术路线复杂,主流研究集中于底层任务的算法创新,完整地实现技术路线并构建图谱的研究相对较少。此外算法研究一般围绕标准数据集展开,此类文本的风格一致、表述规律,抽取结构化知识的难度相对较低。然而实际中更多的是多元异构、有噪音的数据,因此如何以较小的成本实现高质量知识抽取是当前的研究难点。进一步地,产业知识图谱是当前一个热门的研究领域,主要研究目标是从文本数据中提取产业相关的结构化知识并将其应用于下游任务。目前学界在公司、人物等类型的知识抽取上取得了较大进展,但是对产品、技术等复杂实体的研究仍然相对缺乏,而此类知识对于梳理上下游产业链具有十分重要的意义。针对以上挑战,本文展开产业知识图谱的技术以及应用研究,主要研究了面向数据特性的实体识别、关系抽取等知识抽取算法,并将其应用于汽车领域从文本数据中提取公司、产品、技术等实体以及生产研发、合作、竞争等实体关系,从而构建一个汽车产业知识图谱,最后利用该图谱分析国内外汽车产业布局。本文的主要工作和贡献如下:(1)提出一种高质量上下文感知的命名实体识别方法。领域实体如产品名的表述相对复杂,但其所在的语料例如新闻文档通常存在丰富的上下文信息。考虑到文档内实体多次出现的概率较高,那么反过来高频出现的字符串是实体的可能性也较大。因此,本文利用样本与文档的公共字符信息找出语义距离相近的字符片段作为目标样本的高质量上下文,然后设计一种深度网络架构,一方面利用公共字符串的边界信息模糊定位实体的边界信息,另一方面利用卷积神经网络融合多个上下文感知的句子表示,由此提升目标句子的实体识别效果。(2)提出一种模板质量分级的半监督实体关系抽取方法。为了减小模型对数据的依赖,该方法首先利用句法工具自动挖掘实体间的表述模板以此剔除相关性低的上下文信息,然后开发一种基于表示学习的自动标注算法,旨在利用少量标注模板预测其他模板的关系类型。为了缓解噪音标注对后续关系分类器的影响,本文还开发一种模板质量评估算法对伪标签的质量进行分级,由此得到与模板一一对应的样本的伪标签和质量评级,最后设计一种基于模板质量的关系抽取模型来不同程度地利用样本标签和语义信息。(3)提出一种基于实体融合的汽车产业知识图谱构建方法。该方法首先利用提出的实体识别和关系抽取方法从非结构化文本提取汽车领域的知识三元组,然后设计一种基于提示学习的无监督实体链接算法将抽取的实体映射到百科词条,最终得到标准的汽车产业知识图谱。该图谱包含5类实体,9类关系,共4761个节点以及12571条边,基于人工抽样的评估和知识检索案例表明图谱的质量与分析能力。(4)提出一种融合汽车知识图谱的产业链构建及其分析方法。为了验证产业知识图谱的应用价值,本文提出一套半自动化的产业链构建方法,结合外部知识获取实体和关系的属性值,并依据属性特征将知识划分到相应的类别,由此将产业知识图谱转化为由概念统领的汽车产业链。然后,本文选取全局和细分产业两个视角对比中国和其他国家的汽车产业布局差异,深入分析中国汽车产业的长短板。综上所述,本文从算法设计、实际构建和应用价值三个角度展开产业知识图谱的相关研究,结果表明面向数据特性的知识抽取算法可以便捷地应用于其他垂直领域,而构建的产业图谱也极具应用价值。
其他文献
随着中国流动人口的增加以及人们对于居住环境要求的提高,我国房产租赁市场的专业化水平不断提高,长租公寓日益成为越来越多人的选择。但是由于相关法律法规及监管制度的缺失,在司法实践中,近些年涉及长租公寓的法律纠纷案件数量出现指数上升。由于我国尚无专门法律、司法解释及行政法规对于长租公寓的性质与地位、长租公寓与产权人签订之房产委托管理合同的性质及长租公寓、产权人与承租人三方关系进行规定,目前司法实务中对于
学位
报纸
致病微生物引发的传染性疾病长期的威胁着人类的生命健康,抗菌纺织品可以有效的抑制致病微生物的生长繁殖,从而阻断疾病传播。然而传统的后整理、原纤法制备的抗菌纺织品存在抗菌剂用量大、易脱落、抗菌效率低、性能不稳定等问题,且制备流程复杂、易产生环境污染。静电纺丝技术作为制备纳米纤维的一种有效手段,制备的纳米纤维具有比表面积大、孔隙率高等特点,为抗菌纺织品提供了更高的负载能力和更优异的抗菌效率。因此,本研究
学位
随机微分方程作为随机分析的重要内容,在众多学科领域中都有着重要的应用和理论价值.本文研究多结构混合型非线性中立时滞随机微分方程的稳定性,其主要特点为:系统是非线性的,方程系数不满足线性增长条件;在方程中同时考虑中立项,时滞项,马氏切换等因素;方程在马氏链的不同切换状态下具有完全不同的系统结构.本文的主要内容包括:多结构混合型非线性中立函数时滞随机微分方程的指数稳定性,多结构混合型非线性中立无界时滞
学位
报纸
概述了聚对苯二甲酸乙二醇酯(PET)合成的基本原理,以及由对苯二甲酸乙二醇酯(BHET)单体经缩聚反应合成PET的反应机理、合成过程中的主要化学反应,详述了BHET缩聚合成PET的主要影响因素。由BHET缩聚合成PET属于逐步缩合聚合过程,缩聚过程中存在多个化学反应,包括链增长反应、链降解反应及网状结构凝胶物生成的副反应。BHET缩聚合成PET的影响因素主要有催化剂种类及其用量、稳定剂种类及其用量
期刊
目的:采用哺乳动物体内碱性彗星试验,检测两种聚醚醚酮材料的遗传毒性,为医疗器械及其材料的遗传毒性体内碱性彗星试验方法的建立提供依据。方法:采用0.9%氯化钠注射液(SC)和棉籽油(CSO)两种介质制备聚醚醚酮材料的试验液,以SC和CSO作为阴性对照,甲基磺酸甲酯(MMS)作为阳性对照。选取SD大鼠70只,雌雄各半,大鼠连续两次(间隔24 h)染毒,SC组和MMS阳性对照组按照10 m L/kg的剂
期刊
在中国人口增速放缓和人口老龄化的背景下,如何吸引更多流动人口特别是在流动人口中占主体地位的农村流动人口,已成为各大城市亟待解决的重要议题。现实中由于中国城乡二元户籍制度的长期存在及城乡二元社会经济结构的长期分割,农村流动人口在城市劳动力市场遭遇歧视和不公平待遇的现象仍然普遍存在,这成为了阻碍农村流动人口城市化的重要因素之一。为了加快农业转移人口在城镇落户,近年来中国户籍制度改革显著提速。如2014
学位
报纸
报纸