【摘 要】
:
地理文本数据易获得、规模大,蕴含了大量地理空间知识。然而,传统GIS使用的基于计算几何的地理实体空间关系抽取方法只能对地理空间几何数据进行计算,无法处理地理文本数据。因此,本文研究基于文本语义的地理实体空间关系抽取方法,自动化地将互联网中的非结构化地理文本提取为结构化的地理空间知识。目前,基于语义的空间关系计算方法主要问题包括中文文本一词多义、地理文本语法结构复杂、实体表达抽象、关系语义不明显。针
论文部分内容阅读
地理文本数据易获得、规模大,蕴含了大量地理空间知识。然而,传统GIS使用的基于计算几何的地理实体空间关系抽取方法只能对地理空间几何数据进行计算,无法处理地理文本数据。因此,本文研究基于文本语义的地理实体空间关系抽取方法,自动化地将互联网中的非结构化地理文本提取为结构化的地理空间知识。目前,基于语义的空间关系计算方法主要问题包括中文文本一词多义、地理文本语法结构复杂、实体表达抽象、关系语义不明显。针对这些问题,本文结合神经网络和自然语言处理技术,研究基于语义的地理实体空间关系抽取方法,主要工作和创新点如下:(1)分析了传统使用的基于计算几何的空间关系抽取方法在大数据时代下不能利用地理文本数据的问题,研究了基于文本语义的方法,引入神经网络技术对地理文本进行地理实体空间关系抽取。实现了一种基于GRU-ATT的地理实体空间关系抽取方法。该方法使用Word2Vec模型对文本进行词嵌入,选用GRU网络对词向量进行特征抽取,在此基础上添加自注意力机制,加深模型对语义特征的抽取能力,解决了地理文本语法结构复杂、关系语义不明显的问题。实验结果表明,模型在地理文本数据集上测试得到的平均F1值为70.84%,证明了模型的有效性,为后续研究内容提供理论基础。(2)针对深度学习模型效率较低的问题,本文在考虑到部分文本只有单组实体对的前提下,提出基于BERT句语义的空间关系抽取模型。使用语义表征效果最好的BERT句向量模型代替常用的Word2Vec词嵌入模型,通过压缩数据维度的方式提高模型效率。由于BERT模型自带多头自注意力机制和下一句语义预测任务,使模型得到的句语义中特征更加丰富,达到同时提升模型精度和效率的目的。根据对比实验,本模型在地理文本数据集上测试得到的平均F1值为77%,相比GRU-ATT模型F1值提高5%,并且每百句文本的计算效率提高0.67秒。(3)针对中文文本一词多义和地理实体表达抽象的问题,本文在原有的BERT词向量基础上添加词性特征和位置特征,融合形成多特征词向量。通过增加词向量特征数的方式,提高模型对空间关系特征的抽取精度。实验构建相同的神经网络,输入不同特征组合的词向量进行对比。根据结果,使用多特征词向量的模型F1值提高了3.16%,证实了融合多特征的词向量能够提高模型精度。(4)在地理领域中,首创基于多特征BERT-Bi LSTM的地理实体空间关系抽取模型。模型对词嵌入过程进行优化,首次使用语义表达效果优于传统的One-Hot编码与Word2Vec编码的BERT词嵌入模型并融合多特征向量,获得表征能力更强的词向量,解决了解决中文文本一词多义、地理实体表达抽象、关系语义不明显的问题。随后输入到双向长短期记忆网络对语义进行抽取,双向长短期记忆网络的序列结构可以对每个词都进行语义关联,达到加深模型抽取能力的目的,解决了地理文本结构复杂、关系语义不明显的问题。通过实验分析证明,本研究提出的多特征BERT-Bi LSTM空间关系抽取模型在地理数据集测试中,平均F1值达到78%,对比传统的使用Word2Vec向量化和Attention机制的关系抽取模型有较好提升,能够适应地理领域的关系提取。(5)综合前几种基于文本语义的空间关系抽取方法,构建了基于Django+Neo4j的地理实体关系查询展示原型系统。系统后端会定期自动爬取互联网中的文本数据,挖掘地理实体空间关系信息,并存储到图形数据库中。系统前端实现了实体查询、关系查询、关系识别三种用户交互功能,用户可以使用系统对输入的文本进行空间关系抽取,或者在前端搜索相关实体和关系,传输给后端通过查询Neo4j数据库返回三元组对,并以知识图谱的形式进行可视化展示。
其他文献
本文是对晋北地区金元时期木构建筑大木特征的研究。晋北地区特殊的地理位置,使其在唐末后几百年的纷争中一直首当其冲,逐渐与南部地区割裂开来,从而对当地建筑技术的发展和传播产生一定的影响。金元两代虽然均统一了山西地区,但国祚较短,前后只逾百年,就现存晋北现存金元木构来看,具有年代较为集中,形制差异明显的特点。因此,本文选择晋北地区金元时期木构建筑为研究对象,进而展开大木作相关内容的研究。全文共分为四个部
先进典型是时代价值取向和社会道德向度的示范与标杆,彰显着一个国家的道德底蕴、公民的品德素质和社会的道德风气。先进典型教育是中国共产党在长期的革命与建设工作中发挥思想政治教育功能的重要途径和有效形式,也是党在长期的思想政治教育工作中积累与总结的成功经验和优良传统。新中国成立以来,中国共产党始终高度重视利用先进典型教育开展和推动社会主义道德建设。新中国成立初期(1949~1956),中国社会正处在由新
主轴高速化发展在提高切削加工效率的同时,也带来了切削过程中振动的不确定性问题,使正常的切削状态可能会演变为远程故障失稳。研究铣削机床远程故障的在线辨识,保证切削加工过程稳定进行,具有重要研究意义和应用价值。针对远程故障在线辨识多是基于单一特征域指标的问题,研究了多征兆域远程故障敏感特征提取方法。铣削机床远程故障特征信息受时变强切削激励干扰,往往难以及时发现。首先,利用强迫振动频率滤波和远程故障敏感
从2005年开始,重型阁楼式货架在各类仓库中得到广泛应用。在大型仓库中,重型阁楼式货架占地比例较大,通常在80%以上。重型阁楼式货架承重荷载大,结构耐火性能差,火灾下极易造成大面积损坏。目前现有规范中对重型阁楼式货架的消防保护并没有明确规定。本文结合工程,对重型阁楼式货架的抗火保护进行探究。首先通过FDS探究地板镂空率、货板层数、喷淋以及三者共同作用下对火灾下结构表面升温的影响,得出不利升温曲线及
“双碳”背景下,纳米熔盐作为一种高效的传热储热工质,广泛应用于储热系统。熔盐中加入小比例纳米颗粒可大幅提高熔盐的传热储热性能。然而,纳米熔盐的均匀性与稳定性是制约其规模化应用的关键因素。本文以Solar salt(60 wt.%Na NO3-40 wt.%KNO3)为基盐,30 nm SiO2为纳米颗粒,分别采用高温熔融法和水溶液法制备纳米熔盐,部分样品添加表面分散剂十二烷基硫酸钠(SDS)以提高
导航定位关乎国家的社会、经济、安全等各个方面。人们超过80%的生活时间是在室内和地下空间,UWB室内定位技术定位精度高但成本较高,BLE室内定位技术成本低但精度较低,室内定位空间急需一种高精度、低成本、易于实施的定位技术和解决方案。本文针对单一传感器很难满足高精度且成本低的室内复杂导航定位问题,开展UWB/BLE组合行人导航定位模型研究,内容涵盖BLE信距模型、UWB测距优化、BLE定位算法、UW
<正>党的十九届六中全会审议通过了《中共中央关于党的百年奋斗重大成就和历史经验的决议》。在建党百年之际,党中央召开十九届六中全会,全面总结党的百年奋斗重大成就和历史经验,是郑重的历史性、战略性决策,体现了我们党重视和善于运用历史规律的高度政治自觉,体现了我们党牢记初心使命、继往开来的自信和担当。新时代移民管理队伍要坚决拥护“党确立习近平同志党中央的核心、全党的核心地位,确立习近平新时代中国特色社会
随着中国城市的快速发展,城郊村越来越受到社会各界的关注。在中心城市的辐射下,城郊村传统的地方经济、社会、文化结构逐渐瓦解,导致人口外流过多,环境恶化。近年来,在农村政策的引导下,包括城郊村在内的中国农村建设与更新的实践不断升温。但由于缺乏针对性的策略,村庄同质化、乡村性缺失、可持续性差等问题纷纷出现在城郊村的人居环境更新实践中,引起学术界的反思和讨论。本文研究以国内外研究现状资料为基础。在分析总结
多孔材料的水蒸气吸附能力对除湿和集水等领域的应用至关重要,直接影响除湿和集水系统的效率。本文确定了影响多孔材料水蒸气吸附性能的评价指标,包括水蒸气吸附量、分压力、吸脱附速率和水力稳定性。为在不同工况环境参数下,选择最优的多孔吸附材料,本文比较了9种材料的吸脱附特性,其中包括7种MOFs(Metal-Organic Frameworks)材料,即MIL-101(Cr)、MIL-100(Fe)、MOF
消除贫困是人类的共同理想,也是世界各国人民一直以来的美好追求,我国人口一直高居世界首位,人力资源丰富是我们国家发展的一大优势,但也因此带来人均资源分配不足、分配不均等问题,其主要表现就是贫与富之间的巨大鸿沟。所以我国对于贫困治理的问题非常重视,把其放在发展的首位。结合马克思主义经典作家的贫困治理思想、新中国历届国家领导人的贫困治理思想、中华传统文化中济贫救困的思想和我国国情,习近平提出了符合中国实