基于HTML表格的知识库扩充系统设计与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:mgy1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,知识图谱的出现受到了广泛的关注,被应用于智能搜索、个性化推荐、自动问答等各类系统。目前,多数通用知识图谱主要依赖在线百科infobox等高质量数据进行构建,存在规模不足的问题,制约了信息技术的发展。考虑到互联网中的HTML表格数据蕴含着丰富的知识,且半结构化的HTML表格相比非结构化文本具有更高的数据质量,本文将研究基于互联网HTML表格的知识库扩充技术并构建相关系统。然而,如何正确、有效地解析互联网中的HTML表格数据,从中抽取三元组知识并用于知识库扩充,是一个极具挑战的问题。首先,互联网资源可信度不高,需要一种可信HTML表格数据的获取方法。其次,HTML表格的类型各有不同,需要识别相应的类型才能正确地进行知识抽取。最后,不同表格中的实体的表达也会与知识库中的不太一致,用于扩充知识库需要考虑表格实体与知识库匹配的问题。因此,本文主要研究了基于HTML表格扩充知识库的方法,并进行了系统实现。本文的主要工作如下:(1)设计并实现了一个基于HTML表格的知识库扩充系统,该系统可以用于扩充CN-DBpeida,实验结果表明,该系统能够为CN-DBpedia扩充千万级三元组。(2)设计了一个HTML表格数据采集框架。针对表格类型多样的问题,本文使用表格特征及样本集训练了一个表格识别模型来获取含有知识的HTML表格。针对互联网资源可信度低的问题,本文使用网页特征及样本集训练了一个可信网页识别模型来获取可信网页。(3)提出了一个基于互联网HTML表格的三元组抽取和融合系统框架,能够一站式地解析并识别不同类型的HTML表格,抽取三元组并与知识库融合。
其他文献
本文主要研究2018年世界杯足球赛中构建的俄罗斯国家形象。笔者通过进一步研究历史上形成的俄罗斯国家形象和大规模运动赛事希望研究他们互相影响。笔者归纳以前的俄罗斯国家
玄武岩纤维具有较好的稳定性和耐腐蚀性,在生产过程中产生少量的废弃物,且产品废弃后不会产生有害物质,是一种很好的节能环保材料。在透水混凝土中加入玄武岩纤维可以提高力
<正>血管紧张素转化酶抑制剂(Angiotension Converting En- zyme Inhibitor,ACEI)是从蛇毒的毒汁中分离出来的肽类物质,经过一系列的构效关系研制而成。根据它们活性部分化学
得益于CT扫描技术的不断发展,影像学诊断水平显著增强,明显提高了病变检出率及诊断准确率。然而,基于CT的医学影像都是2D断层面图像,医生不能直观观察病灶部位的三维结构,只
目的:观察黑蚂蚁降糖胶囊的治疗糖尿病药效学作用。方法:采用四氧嘧啶致大鼠、小鼠糖尿病、腹腔注射25%葡萄糖溶液致大鼠血糖升高等模型,观察黑蚂蚁降糖胶囊的治疗糖尿病药效学
本文基于ELES模型,根据边际消费倾向、需求收入弹性及消费结构变动度等指标,采用2007~2017年相关数据,通过静态和动态两个途径分别对菏泽市农村居民消费结构进行分析,得出结论
血管紧张素转换酶抑制剂是临床常用的心血管药物,通过对其发展历史、作用机制、结构特点及药理作用的介绍,探讨其在降低血压、改善心脏功能、抗动脉粥样硬化、保护肾脏、防治
在全球经济一体化的形势下,仓储物流在企业的发展中有着十分重的作用,而业务流程管理上流程不明确和表达不清晰的缺点限制了系统敏捷性和扩展性的需求。在此基础上,仓储物流管理
<正>现实生活中,总会有个别劳动者专门利用企业的管理漏洞,或拒签劳动合同,或找茬诱使企业解除合同,促使企业发生违法行为,以便成功索要双倍工资或经济补偿等经济利益。相信
预习自学、导学点拨、练习反馈、延伸探究是&#39;4+&#39;互动课堂的基本模式,教师要根据不同的学科、课型活用这个教学模式,通过在课堂上展示交流预习作业、延时呈现教学内容