论文部分内容阅读
随着GIS认知与应用能力的不断提升,地址信息逐步成为智慧城市时代的核心资源,其内容中所承载的语义和空间内涵,更是构建智慧城市中地理本体与时空语义框架的基础支撑。因此,全方位开展地名地址规范化建设与社会化应用研究已成为当前的学术界热点。让计算机从理解地址文本的角度出发,深度提炼地名地址综合特征并形成数值形式的量化表达,使其具有人类认知水平的处理能力,是从根本上实现上述任务的关键前提,对于融合和理解城市语义与空间内容具有重要的理论价值和实践意义。然而当前以非结构化文本管理或地址编码为核心的理论研究,由于无法深入挖掘文本的特征内涵,导致其在任务处理时面临信息孤岛、附加数据依赖、泛化性弱等突出问题,极大限制了地址数据在智慧城市领域内的使用。针对现有地名地址研究中存在的信息特征表达不充分、数据建设工作不深入、应用场景局限的困境,本文综合利用现代人工智能方法的深度神经网络架构,将文本特征提取、地址规范化建设和语义空间融合等任务转化为可量化的深度神经网络模型构建与训练优化问题。以地址中的字符为基本输入单元,设计语言模型将其向量化表达。在此基础上,将地名地址规范化建设的关键技术通过神经网络目标任务加以实现。同时考虑到地名地址空间表达特性,提出地址语义-空间的特征融合方案,设计加权聚类方法与特征融合模型。本研究建立了一套语义表述-规范化-特征融合-下游任务支持的地名地址理论框架和方法体系,并以杭州市上城区和下城区地址数据作为研究对象,进行了核心方法的测试、应用和论证。本文的研究内容概括如下:(1)形成了一套深度神经网络结构下的地名地址语言模型构建理论。考虑字符之间相互影响及上下文语序,以“量化表达每个字符所在语境和位置的语言意义”为目标,提出了基于文本自注意力机制的地址语言模型,设计了具有自学习能力的多层次深度神经网络,建立了适合于地址特点的语言模型参数训练框架,并通过实验论证了该理论方法的有效性,可实现地址文本的语义特征表达。(2)给出了基于地址语言模型的文本数据规范化建设方法的设计与实现。建立了地址无监督分词的深度神经网络结构和训练框架,提出了“微监督”的优化训练方案,并设计了具有自学习能力的复合型地理实体标注方法,以统一规范进行标准地址输出。以地址文本为对象开展实验,论证了该方法在分词、标注及生产方面的准确性与高效性,证明了该工作比以往基于规则、数据库或监督学习的方式具有更强的泛化性。(3)给出了地名地址语义-空间融合理论的定义与设计实现。在地址语言模型和数据规范化基础上,提出了结合语义和空间位置加权的聚类方法,定义地址语义-空间融合模型并构建分类任务训练框架,实现了模型参数的语义-空间融合,并设计了地理编码回归的下游任务进行验证。实验以地址文本及其空间坐标为对象,充分证明了本理论的可行性与有效性,并论证了该空间语义模型能够统一任务框架,有效地结合地址文本语义和空间坐标信息,显著降低如空间位置预测等下游任务的计算误差。本文研究有望实现地名地址信息规范化、数值化、空间化、智能化建模方法的理论创新与模型突破,提升地名地址建设和应用的操作效率和泛化能力,促进智慧城市空间信息建设体系方法的研究与发展。