深度神经网络下的规范化地址建设与语义空间模型研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:liongliong552
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着GIS认知与应用能力的不断提升,地址信息逐步成为智慧城市时代的核心资源,其内容中所承载的语义和空间内涵,更是构建智慧城市中地理本体与时空语义框架的基础支撑。因此,全方位开展地名地址规范化建设与社会化应用研究已成为当前的学术界热点。让计算机从理解地址文本的角度出发,深度提炼地名地址综合特征并形成数值形式的量化表达,使其具有人类认知水平的处理能力,是从根本上实现上述任务的关键前提,对于融合和理解城市语义与空间内容具有重要的理论价值和实践意义。然而当前以非结构化文本管理或地址编码为核心的理论研究,由于无法深入挖掘文本的特征内涵,导致其在任务处理时面临信息孤岛、附加数据依赖、泛化性弱等突出问题,极大限制了地址数据在智慧城市领域内的使用。针对现有地名地址研究中存在的信息特征表达不充分、数据建设工作不深入、应用场景局限的困境,本文综合利用现代人工智能方法的深度神经网络架构,将文本特征提取、地址规范化建设和语义空间融合等任务转化为可量化的深度神经网络模型构建与训练优化问题。以地址中的字符为基本输入单元,设计语言模型将其向量化表达。在此基础上,将地名地址规范化建设的关键技术通过神经网络目标任务加以实现。同时考虑到地名地址空间表达特性,提出地址语义-空间的特征融合方案,设计加权聚类方法与特征融合模型。本研究建立了一套语义表述-规范化-特征融合-下游任务支持的地名地址理论框架和方法体系,并以杭州市上城区和下城区地址数据作为研究对象,进行了核心方法的测试、应用和论证。本文的研究内容概括如下:(1)形成了一套深度神经网络结构下的地名地址语言模型构建理论。考虑字符之间相互影响及上下文语序,以“量化表达每个字符所在语境和位置的语言意义”为目标,提出了基于文本自注意力机制的地址语言模型,设计了具有自学习能力的多层次深度神经网络,建立了适合于地址特点的语言模型参数训练框架,并通过实验论证了该理论方法的有效性,可实现地址文本的语义特征表达。(2)给出了基于地址语言模型的文本数据规范化建设方法的设计与实现。建立了地址无监督分词的深度神经网络结构和训练框架,提出了“微监督”的优化训练方案,并设计了具有自学习能力的复合型地理实体标注方法,以统一规范进行标准地址输出。以地址文本为对象开展实验,论证了该方法在分词、标注及生产方面的准确性与高效性,证明了该工作比以往基于规则、数据库或监督学习的方式具有更强的泛化性。(3)给出了地名地址语义-空间融合理论的定义与设计实现。在地址语言模型和数据规范化基础上,提出了结合语义和空间位置加权的聚类方法,定义地址语义-空间融合模型并构建分类任务训练框架,实现了模型参数的语义-空间融合,并设计了地理编码回归的下游任务进行验证。实验以地址文本及其空间坐标为对象,充分证明了本理论的可行性与有效性,并论证了该空间语义模型能够统一任务框架,有效地结合地址文本语义和空间坐标信息,显著降低如空间位置预测等下游任务的计算误差。本文研究有望实现地名地址信息规范化、数值化、空间化、智能化建模方法的理论创新与模型突破,提升地名地址建设和应用的操作效率和泛化能力,促进智慧城市空间信息建设体系方法的研究与发展。
其他文献
当日常生活中谈到价格时,我们往往习惯于从经济学的视角去审视。这不仅与我们受到的教育有关,也与这个时代流行的经济学观点有关。但这无碍于我们去发现价格的其他面向,无论
此文为“趣味性”系列日用陶瓷作品设计报告。以趣味性设计为灵感来源,解析了基于情感化的趣味性设计在日用产品设计中的存在形态,并重点研究了趣味性在日用陶瓷设计中的设计表现。通过相关图片和资料的整理,汲取了趣味性设计的多元表达方式及其特点;实现“趣味性”元素进行设计实践中的再造。作品以童年喜爱的游戏和生活中光影的变化之趣味为灵感,并注入对日常生活的随想与情感,结合所学的陶瓷产品设计知识,在形式美法则的基
结合耿村煤矿13210工作面冲击地压卸压钻孔实施情况,采用数值模拟FLAC软件对13210工作面卸压钻孔如何合理选取孔径进行了模拟、分析,得出了合理的卸压钻孔直径,为冲击地压工
平菇不易贮存和长途运输,为避免高峰期供大于求,加工成味道鲜美的新型复合调味品菇蒜鲜辣酱是一种好途径。
期刊
从土地利用分散决策和土地管理集中决策即土地利用控制及土地用途分区管制机制的角度,分析了土地用途分区管制的必要性、可行性;借鉴国外经验,提出了完善我国的土地用途分区
本文探讨罗生特在抗日根据地部队卫校建设和战时医院建设中的贡献,并从工匠精神、红十字精神、沂蒙精神和正确处理医患关系的角度总结了罗生特对中国卫生事业的卓越贡献,对当
随着现在中国的不断发展,各方面都在有序的提升,尤其是在铁路工程方面,国家对于这方面的投资逐渐增大,但是市场竞争也是不断加大,越来越激烈,竞争促使铁路建设的标准更加严格
<正> 本专利内容为:芳族化合物烷基化法的改进,用氯代烷作烷基化剂,用三氯化铝作催化剂,使用时三氯化铝和烃形成一液体复合物。本专利内容还涉及一种方法,能使烷基化反应器内
为了对现有机器人的物体识别进行优化和改进,提出了一种新的权重计算方法进行室内场景图像识别。该方法通过对输入场景的转换获取无向带权图,在表面法方向的基础上,使用表面
本文指出所谓“借腹生子和借父生子”都不属于《人类辅助生殖技术管理办法》中规定的人类辅助生殖技术。这种生育方式和行为违反社会公德、社会法律,不受任何法律保护。同时