基于简介文本的属性挖掘与知识图谱构建

来源 :苏州大学 | 被引量 : 0次 | 上传用户:titaige
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网中存在着许多百科数据,一般以词条网页的形式展示给用户,主要包含词条简介文本与词条基本信息表格等模块。词条简介文本即以当前词条作为对象的描述文本,而词条基本信息表格则为表格形式的属性知识模块。基本信息表格格式工整,但存在一些瑕疵,如表格内属性值未进行归一,属性名表达多样等。简介文本虽然没有格式化信息,但它包含着丰富的内容,可以供我们挖掘。我们希望结合两者优点,以词条基本信息表格作为基础数据,同时从简介文本中挖掘出更多的知识三元组,丰富知识库。本文主要内容分为以下几个方面:(1)研究基于混合策略的属性识别。我们以人物属性集合作为实验对象,采用远程监督的方法自动标注数据,构建人物属性识别系统。根据属性的不同特性,分别采用基于规则的属性识别与基于模型的属性识别方法。在基于模型的属性识别方法中,将当前任务转化为序列标注任务,以当前比较主流的几种序列标注模型实验,对比并采用性能最优的模型构建系统。实验结果表明,本文基于混合策略的属性识别工作具有较好的识别效果。(2)研究基于Bootstrapping与联合模型的别名识别。与其他常规属性不同,别名是一种特别的实体属性,我们对其进行单独识别。本文分别对人物别名以及旅游景点别名进行挖掘。人物别名挖掘利用远程监督构建数据集,以准确率为目标,采用模式迭代的方式,挖掘出候选别名集合,并构建分类器判别挖掘结果的正确性。而在旅游场景下,采用人工标注的方式构建数据,着重对景点别名深入研究。旅游景点别名挖掘主要以F1值作为目标,采用流水线式模型与联合模型进行实验。经过多次实验对比,我们发现联合模型相较于流水线式模型更加适合该任务。(3)研究基于百科数据的人物知识图谱构建。以人物领域为例,描述如何构建出人物知识图谱。通过爬虫,我们获取了多个百科网站源的网页信息。将这些数据进行整合、清洗以及属性归一化,并挖掘出类型为人物的词条实体。在此基础上,定义人物的基本属性,并将这些实体数据编码,存储于知识库中。此外,结合本文的属性识别工作,对当前知识库进行属性补全与纠错工作,使知识库中各人物属性的覆盖率均得到了一些提高。最终,我们构建出知识图谱展示系统,可供用户查阅信息等。综上所述,本文利用目前网上可获取的百科数据作为基础知识库。在此之上对知识进行梳理清洗,并从简介文本中挖掘属性。通过采用不同的方法以及不同的模型,选取最适合不同子任务的方法模型,对知识库进行补全和纠错,不断丰富知识。最终以人物领域为例,构建出基于该知识库人物知识图谱。
其他文献
自媒体网络时代,微信、微博以及短视频平台等各种依托于互联网发展起来的自媒体逐渐进入人们生活。“民以食为天,食以安为先”,食用农产品安全问题更是备受关注。在自媒体时
在道路、桥梁等施工过程中,挡土结构的应用很多,并且其主要破坏形式有倾覆、滑移等。国外的挡土结构抗震设计是基于位移与性能的抗震设计理念,而我国的抗震设计基于力的抗震理念,基于位移与性能的挡土结构抗震设计可以计算出挡土结构的破坏等级,以便后期对破坏程度鉴定以及维修使用,而基于力的挡土结构抗震方法只能判断挡土结构破坏或者非破坏,不利于对挡土结构的破坏程度进行评定。鉴于此,本文结合Newmark滑动理论,
改革开放四十年以来,中国制造业规模不断扩大,制造业成为维系中国发展的命脉产业。但中国制造业在产业发展过程中普遍面临着“大而不强”,缺乏核心自主技术,创新能力低下等多
当前信息技术的蓬勃发展,伴随着智能设备如计算机、手机、智能手表等产品的不断升级,对起到信息传输和元器件连接作用的线路提出了更高的要求;另外,现有印制电路板制造工艺特
目的通过溶胶-水热法合成了Ag同步沉积与掺杂的TiO_2纳米粒子(Ag-TiO_2NPs),并将其同时作为新型SERS活性基底和光催化剂,分别对多种药物污染物进行高灵敏的SERS检测以及高效的光催化降解研究。这不仅改善了半导体TiO_2的SERS性能,拓展了半导体TiO_2作为SERS活性基底的应用范围,建立基于SERS技术的药物污染物检测研究手段。同时,探究药物分子与复合基底间的相互作用机理,以
2014年,浙江省人民政府出台了《高校招生制度综合改革试点方案》,将信息技术科目纳入高考。创新型、高素养人才能使国家在当今风云际会的局势中率先抢占制高点,信息技术将成
随着高速列车的进一步提速,高速列车轻量化问题得到了广泛关注。转向架作为高速列车的重要行走机构和承力机构,对材料的强度和疲劳性能提出了很高的要求。近年来,关于高强度贝氏体钢的研究愈发增多。这种钢优异的强度和疲劳性能给高速列车转向架的轻量化指明了一条道路:在不损失材料的疲劳性能前提下提高材料的强度,从而减小转向架制造过程中材料的使用量,达到轻量化目的。本文针对10 mm厚某新型高强度贝氏体钢,研究了其
随着社会的发展与人们生活水平的提高,城市的绿化水平成为关注的重点,随之而来的草坪管理维护等问题也亟待解决。草坪物种的多样性使得维护管理方案千差万别,其中最主要的草坪留茬高度标准具有较大差异。因为应用于大型草场维护的零转弯半径(Zero Turning Radius,简称ZTR)割草机的刀盘无法自动升降且没有对待割草坪植株高度进行精确测量,所以其在割草作业时未能实现对留茬高度精准控制。针对以上问题,
阀板是汽车空调压缩机中重要的基础零件,其表面的缺陷会直接影响整个系统的正常工作和使用寿命,在出厂前对阀板进行缺陷检测是很有必要的。目前阀板表面缺陷的检测主要停留在
钢-混凝土组合与叠合双重作用梁可以有效的改善连续组合梁在负弯矩区的受力性能和抗裂性能。对这种新型结构的静力性能研究已取得了一定的进展,但对于其自振特性方面的研究却鲜有报道。本文通过理论分析、数值模拟及模型试验,对可释放混凝土桥面板拉应力的新型连接件及钢-混凝土组合与叠合梁自振特性进行了较为系统的研究,以期对组合与叠合梁的设计提供依据。基于组合与叠合梁的工作原理,提出连续组合梁桥负弯矩区抗拔栓钉的设