论文部分内容阅读
我国有大量的史书流传至今,自新文化运动提倡白话文后,逐渐加大了人们阅读文言文书籍的难度。为了避免出现无人能懂的局面,国家组织专家,抢救性的翻译了《二十四史》,但仍存在纪传体史书叙事分散、篇幅巨大、人物繁多、关系复杂等影响阅读效果的问题。知识图谱具备强大的语义表示能力和良好的扩展能力,使得它在知识组织、知识检索以及知识展示等方面有着良好的表现,为智能问答、智能搜索和推荐等应用提供了底层数据和技术支持。将历史信息进行细粒度的知识提取,以时间、地点、人物为主,辅以其他要素构建关系语义网,以知识图谱的形式存储,将有利于整合历史事件记载、提高检索效率。本文的具体研究工作分为两个部分。第一部分是完成历史信息知识图谱的构建。首先,分析纪传体史书的原始数据,构建历史信息的本体模型,设计了以四元组形式进行知识获取的方法。其次,使用BiLSTM+CRF模型完成了命名实体识别任务,取得了良好的识别效果。再次,为保存更细粒度的实体关系,设计了一个语义特征与全局特征结合的图解码依存句法分析模型,完成了以书籍中记载的相关词语来表述实体关系的任务。最后,针对纪传体史书,设计了存储方案,使用neo4j图数据库完成了知识图谱的构建。第二部分是针对所构建的历史信息知识图谱,设计实现基于语义的检索功能,首先通过分词和句法分析提取语义三元组,其次根据问句样本集将语义三元组构建成Cypher查询语言,若无结果返回,执行语义分析后再次检索。通过设计对比实验,得到命名实体识别模型的准确率82.5%、召回率83.3%、F值82.9%,依存句法分析模型的依存关系准确率(UAS)86.5%、依存类型准确率(LAS)83.4%,检索语句分类的准确率84.5%。验证了本文设计的命名实体识别模型、实体关系抽取模型、语义检索模型的可行性。