面向纪传体史书的知识图谱构建与检索的研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:deepseaxing2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国有大量的史书流传至今,自新文化运动提倡白话文后,逐渐加大了人们阅读文言文书籍的难度。为了避免出现无人能懂的局面,国家组织专家,抢救性的翻译了《二十四史》,但仍存在纪传体史书叙事分散、篇幅巨大、人物繁多、关系复杂等影响阅读效果的问题。知识图谱具备强大的语义表示能力和良好的扩展能力,使得它在知识组织、知识检索以及知识展示等方面有着良好的表现,为智能问答、智能搜索和推荐等应用提供了底层数据和技术支持。将历史信息进行细粒度的知识提取,以时间、地点、人物为主,辅以其他要素构建关系语义网,以知识图谱的形式存储,将有利于整合历史事件记载、提高检索效率。本文的具体研究工作分为两个部分。第一部分是完成历史信息知识图谱的构建。首先,分析纪传体史书的原始数据,构建历史信息的本体模型,设计了以四元组形式进行知识获取的方法。其次,使用BiLSTM+CRF模型完成了命名实体识别任务,取得了良好的识别效果。再次,为保存更细粒度的实体关系,设计了一个语义特征与全局特征结合的图解码依存句法分析模型,完成了以书籍中记载的相关词语来表述实体关系的任务。最后,针对纪传体史书,设计了存储方案,使用neo4j图数据库完成了知识图谱的构建。第二部分是针对所构建的历史信息知识图谱,设计实现基于语义的检索功能,首先通过分词和句法分析提取语义三元组,其次根据问句样本集将语义三元组构建成Cypher查询语言,若无结果返回,执行语义分析后再次检索。通过设计对比实验,得到命名实体识别模型的准确率82.5%、召回率83.3%、F值82.9%,依存句法分析模型的依存关系准确率(UAS)86.5%、依存类型准确率(LAS)83.4%,检索语句分类的准确率84.5%。验证了本文设计的命名实体识别模型、实体关系抽取模型、语义检索模型的可行性。
其他文献
2018年电影《狗十三》的再次上映,让这样一位独具特色的导演曹保平重回大众的视野。曹保平作为电影学院的一名教师,自觉坚守艺术底线,坚持自己的电影创作,拥有自身独特的电影
Chirp_UWB通信系统使用Chirp信号实现数据传输,起到扩频的效果,具有抗衰落能力强、处理增益大、功率谱密度低、传输距离远等诸多特点,获得广泛研究与关注,而实现该系统的关键之一
间断性低氧是阻塞性睡眠呼吸暂停综合征(OSAS)的典型病理生理过程,导致血氧饱和度时高时低,刺激外周化学感受器导致交感兴奋,从而使得心血管疾病的风险大大增加。老年人是心血管疾
物理学是一门建立在实验基础之上的自然学科,物理学的进步往往也是建立在物理实验所取得的一些突破性进展。近年来,我国经过多次基础教育课程改革,《全日制义务教育物理课程
锂硫电池因硫正极高的理论比容量和高能量密度,有望突破目前电动汽车中动力电池能量密度瓶颈。然而,由于硫的绝缘性、电极体积膨胀、多硫化物在电解液中造成的穿梭效应、锂枝
解三角形问题是高中数学教学的重点和难点之一。它涉及到正弦定理、余弦定理、三角形面积公式以及三角函数等知识,还蕴含着转化与化归、数形结合、函数与方程、分类讨论等数
以建构主义和社会交互理论为基础的建构式交互教学模式是近年来素质教育的重要发展趋势之一。本文在理论回顾的前提下,将作为现代教育技术手段的教师博客运用于建构式交互教