基于知识图谱的诗人行走足迹图

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:zhubob2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:历史上某位诗人所处的位置可能随着时间因素,因其经历而发生变化,因此从诗人对应的经历数据中,抽取任务、地点、时间和事件等属性类,将其轨迹动态映射到地图上。
  关键词:诗词;知识图谱;数据挖掘;足迹图
  第一章 概述
  1.1研究背景:
  诗词作为中华民族文化的瑰宝,在历史长河中闪烁着熠熠光辉。然而,现代对中华诗词精通的人却特别少,学习中华古典文化需要付出相当大的精力,这在时间方面不利于我们学习与传承中华文化历史。
  1.2 项目意义:
  本课题希望通过对中华诗词的分析,按照时间、地点等脉络以及人物关系,结合历史背景,提取出诗词间的关联关系,并通过可视化的技术展现出来,辅助我们学习诗词,同时也为中华文化的传承做出努力。
  1.3 项目方案:
  课题主要工作包括:中华诗词的文本数据采集、标注技术研究、作者和诗词内容关联分析等主要工作,同时基于此研究,将其应用于生成诗人的行走足迹图。
  本项目从“古诗文网”上抓取作者及诗词信息,并采集网页上已有的中国历史上所有诗词曲的基本信息。之后,将采集到的信息进行处理,并通过neo4j以图数据库的形式存储数据,之后借由图数据库达到生成诗词相关信息——诗人的行走足迹图的目的。
  第二章 数据技术相关介绍
  2.1数据收集
  从“古诗文网”上抓取作者及诗词信息,并采集网页上已有的中国历史上所有诗词曲的基本信息。
  在本次项目中使用的是基于python语言的CrawlSpider爬虫框架,通过分析网页的页面编排模式,获取所需诗歌的内容。
  属性确定:本次项目所需的数据包括诗歌的标题、诗人、朝代、内容、注释、赏析。
  2.2数据清洗
  初步获取到的数据大致存在以下问题:
  2.2.1对应属性值为空
  某些詩歌可能存在诗人不明,朝代空缺,没有注释与赏析的情况。
  处理方案:将原本网页中缺失的数据自动补齐,向其中填写“无”。
  2.2.2杂项数据
  从html上获取的文本信息,可能含有大量无意义的换行符,以及混在正常数据中的UI界面文本。
  处理方案:分析杂项数据的内容,对其进行替换。
  2.2.3指代消解问题
  数据中包含一些指代相同的词语,如“唐朝”和“唐代”,两个词本身意义相同,为了消除指代消解问题,这里统一将“代”改为“朝”。
  2.2.4作者不详,年代不详的诗歌处理
  数据中具有作者为佚名、年代不详的诗歌,将其单独清洗成一个json文件。
  2.3数据挖掘(分词+建立三元组)
  首先,我们对对每首诗中的赏析部分进行分词,文本后的符号代表该词的词性。
  之后我们建立不同的三元组——诗与诗人、诗与地点、诗与诗、诗与诗人、诗与年代,以及对文本内容补充抽取关系,从而便于知识图谱的建立。
  2.4数据可视化(建立知识图谱)
  将所有三元关系集合起来存放到一个表中,建立知识图谱可视化。
  2.5环境搭建
  在虚拟机/本机上装好Windows系统,在Windows上安装必要的python环境,配置好Neo4j。
  第三章 分析方法总结及结果展示
  3.1 诗歌数据处理
  为了实现诗人行走足迹图的生成,对爬虫方式收集的数据进行清洗,将清洗后的数据按每个诗人名作的相关数据从原本的诗词数据库中提取出来,并且按照其创作时间排序。
  3.2基于诗歌数据知识图谱生成诗人行走足迹图
  得到数据之后,利用python的画图工具,如pyecharts来实现足迹图的生成。
  将表格中的数据格式化后,按照时间创建时间轴对象后,按照每条数据的元组数据生成足迹图。
  图例中图标信息:
  白色点:诗人去过的地方
  红色点:当前时间点诗人所在地
  箭头:诗人从某地移动到目的地
  附地图生成代码数据读取和足迹图生成部分:
  poet_name = "杜甫"
  dataset = pd.read_csv('dataset_'+ poet_name +'.csv')
  data=np.array(dataset).tolist(  )
  timeline.render('active_map_'+ poet_name + '.html')
  依照该部分代码,将表格数据文件以dataset_诗人名.csv的格式读取时,可以实现生成每个诗人的行走足迹图。
  第四章 总结概括
  4.1项目总结
  系统的分析方法可以有效地挖掘出诗词数据背后所蕴含的价值,提取出诗词间的关联关系,并通过可视化的技术展现出来,辅助我们学习诗词,同时也为中华文化的传承做出努力,为社会提供更多的价值。
  4.2结束语
  本文论述了知识图谱技术在诗词数据的部分前景,历史上某位诗人所处的位置可能随着时间因素,因其不同的经历而发生变化,因此从诗人对应的经历数据中,抽取地点、时间等属性类,将其轨迹动态映射到地图上。在分析数据的同时挖掘出隐藏在数据背后的价值,以便大家更好地学习诗词。
  参考文献
  [1]  王红 张青青 蔡伟伟 姜洋.基于Neo4j的领域本体存储方法研究[J].计算机应用研究.2017,34(08):2404-2407.
  [2]  周莉娜 洪亮 高子阳.唐诗知识图谱的构建及其智能知识服务设计[J].图书情报工作.2019,63(02):24-33.
  [3]  刘峤 李杨 段宏 刘瑶 秦志光.知识图谱构建技术综述[J].计算机研究与发展.2016,53(03):582-600.
  基金项目:由北京信息科技大学2020年大学生创新创业训练计划项目资助(5102010805)。
  This work is supported by 2020 College Student Innovation and Entrepreneurship Training Program of BISTU(5102010805)
其他文献
摘 要:校基层团组织作为高校共青团工作的基础,与广大学生团员保持着最直接、最广泛的联系,肩负着团结教育青年学生,为国家培养青年建设人才的重任,是高等教育的重要育人基地,因此,在新的时期,如何加强高校基层团组织的建设是开展团工作需要认真思考的问题。本文对新时期高校基层党建工作的问题及相关探索进行研究。  关键词:高校;基层团组织;大学生团员  一、高校基层团组织及大学生团员存在的状况  1.大学生团
期刊
摘 要:随着社会的进步与发展,市场对艺术设计人才的要求越来越高,这对艺术设计教育提出了更高的要求,传统的艺术设计教育是对学生进行“口头+黑板”的传授,对实验性教学缺乏科学的认识,导致培养出来的艺术设计人才素养不高,难以适应现代社会对人才的要求,因此必须加强艺术设计实验室建设,创设人才培养环境,全面提升人才素质。  关键词:艺术设计;实验室建设;人才培养;创新  随着高校招生的扩张,艺术类招生规模也
期刊
摘 要:在我国社会的快速发展下各行各业都有了很大的突破和进步,并且都在为我国行业的发展去引进新的理念、教育方式、优秀文化等等内容。特别是高校最近引进了西方国家的一些教学方式,为的是可以更好的对高校的体育生进行教学,让他们有更大的发展空间以及学到更多的知识。因此,这篇文章将对高校体育教学引入的素质拓展训练模式进行分析和研究。  关键词:素质拓展训练;高校体育课程;教学;有效融合  随着教育方面的不断
期刊
摘 要:随着风光互补发电的的普及及电动汽车行业的迅速发展,探讨利用风光互补发电技术为电动汽车充电,在介绍风光互补电动汽车供电电系统主体结构的基础上,对风力发电机、光伏电池、蓄电池、电动汽车动力电池等各个组成部分进行选型,为后续智能充电系统的研究分析奠定基础。  关键词:风光互补;电动汽车;智能充电  汽车的广泛使用方便了人们的出行,然而随着石油能源的过度开采,汽车的传统燃料面临枯竭,而且排放的尾气
期刊
摘 要:现如今,我国技术型人才较为短缺,各高职院校通过搭建实训基地的方式极大程度的改善了技术型人才的培养质量。这既有助于推进社会发展,又可以为高职院校今后发展打下良好基石。本文详细分析了实训室管理的问题与对策,旨在更好的推进高职院校发展。  关键词:高职院校;实训室管理;问题  高职院校是培养应用技术技能型人才的关键场所,而为让学生具备更好的就业能力,各高职院校开始逐渐加大了对实训室的重视程度,以
期刊
摘 要:新的发展阶段下,风险和机遇共存,中国特色社会主义制度是我国我党的最大优势,须从理论和实践层面思考永葆马克思主义政党纯洁性和先进性,坚定政治信仰和理想信念,解决时代命题。  关键词:政治风险;执政能力;依法治国  一、中国共产党是中国近代史发展历史的必然  1840年近代中国史就是一部百年屈辱史,面对日益深重的政治危机和民族危机,无数仁人志士为改变中国前途命运,探寻国家制度和治理体系,尝试了
期刊
摘 要:在新冠肺炎疫情蔓延的背景下,创新教研形式,进行网络教学研修成了当下教师专业发展的新需求。本文以笔者所在学校的在线教研活动为基础,阐述了在线研修活动的设计与构建内容,较完整地阐述在线教研的具体环节,具象化了在网络教研的流程,并分析了在线教研的成效。  关键词:疫情;网络教研;策略  一、研究的缘起  信息时代教师应顺应时代大潮,学习、研究、应用、创新信息技术环境下的有效教研,提高工作效率并让
期刊
摘 要:由河南师范大学新联学院刘擎同志主持,河南师范大学体育学院的蔡端伟、四川商务学院的马学明、河南师范大学新联学院的秦川、西南交通大学体育学院的牟雨兰参与研究的国家级重点课题《城镇化建设背景下社区体育公共服务体系建构动力机制研究》系全国教育科学“十三五”规划重点课题,课题编号:SSKT2068。本课题2019年7月30日立项,2020年10月10日结题,课题成果获国家科研成果一等奖。  关键词:
期刊
摘 要:贵州本身就是我国着重关注的扶贫省份,贵州如何在环境下适应经济新常态,找到属于贵州自己的发展路线,积极的克服困难,找到致富之路,成为了贵州人民和我国政府共同关心的事情,这是我国迈入全面小康社会的一大步。本文主要是以贵州为主要分析省份,通过结合区块链技术来探讨贵州大扶贫的开发策略,本文通过分析研究主要从精准扶贫、农业扶贫两个方面进行分析,探讨如何使用区块链技术对贵州实施大扶贫开发。本文首先介绍
期刊
【摘要】踏入2020年,我国政府及居民的首要任务是与“COVID-19”肺炎疫情进行抗争。突然爆发的“COVID-19”肺炎疫情严重威胁人民的健康安全,对我国的经济建设也形成阻碍。高校属于人员密集的场所,疫情的爆发对学校教学秩序的运转带来严重的挑战。在疫情未彻底消失前,如何针对高校展开疫情管理不仅是学校领导思考的问题,也是政府首要采取的措施之一。校园疫情防控需要每个地区的党政机关、学校领导采取相应
期刊