面向网络文本地理信息的POI获取技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:rayasoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
兴趣点(Point of Interest,POI)是地理信息系统中表示地物的数据集,它主要包括名称、类别、经度和纬度四个方面的信息。全面丰富的POI数据是地理位置服务(Location Based Service,LBS)的必备资源。但是LBS行业日益增长的服务需求与低效的传统采集方法之间产生了巨大的矛盾,传统采集方式采集速度慢,更新周期长,无法满足LBS行业对POI数据的需求。而现在网络资源极其丰富,其中不乏海量的POI信息。鉴于此,本文致力于从网络文本地理信息中获取POI数据的相关技术的研究,研究工作主要包括以下三个方面:首先,研究主题网络爬虫技术以获取POI敏感网页。为了能够获取与POI信息高度相关的网页,本文将网页内容的结构化信息加入到传统的网页特征向量生成算法之中,强化特征向量对网页内容的表达,以此提高主题网络爬虫抓取网页的准确率。此外,本文还在主题网络爬虫的主题判定中加入了主题阈值和主题向量自动调整功能,来提高主题网络爬虫对POI敏感网页的发现率。其次,研究了条件随机场模型在中文命名实体识别中的应用。利用条件随机场模型对网页文本中的POI的名称以及地名进行识别。由于识别出的地名串不能作为地址信息使用,在分析了地址结构的基础之上,本文提出了基于创建地址模型的地址识别方法,利用该方法从地名串中识别出地址信息。最后,研究了POI名称和地址的关联方法。一般情况下一个POI敏感网页中往往包含多个POI名称和地址,如何将它们正确关联在一起,对成功获取POI信息至关重要。本文根据网页的结构化特征,提出基于加权统计的方法和基于路径匹配的方法来解决POI名称和地址的关联问题。此外,由于很难从网页中获取到POI的经纬度信息,本文借助Google Map提供的服务对名称和地址成功关联的POI进行解析,获取POI对应的经纬度信息。之后将所得信息组合成“POI名称,地址,经度,纬度”的形式。本文在上述理论研究的基础之上,进行了系统开发,借助开发的系统进行了POI获取实验,达到了从网络中获取POI数据的目的。
其他文献
在“圣”达成的过程中,“听”展现为一种能力,它具体表现为能听、会听、善听等多个面向。一方面,具备高超的“听”的能力,是成圣的必要条件之一;另一方面,凡为圣者,皆在“听”上达到
随着我国机动车保有量的快速增加,机动车排放的尾气已成为城市污染的主要来源之一。而城市中鳞次栉比的高大建筑物间形成的峡谷型街道,又使街道内的交通废气大量积聚、难以扩
目的:分析CT导向下125I粒子组织间植入治疗恶性肿瘤的护理效果。方法:选取2015年6月~2016年12月我院收治的中晚期恶性肿瘤患者54例,均行CT导向下125I粒子组织间植入治疗,回顾性
目的评价左旋甲状腺素对妊娠期亚临床甲状腺功能减退患者妊娠结局的干预效果。方法选取2010年1月至2014年6月在成都市妇女儿童中心医院妇产科产检、治疗及分娩的156例亚临床
回顾2017年干散货运输市场运行情况,对各船型市场走势及主要影响因素进行分析。展望2018年全球和国内经济形势,对全球经济的风险点和增长点进行归纳。在分析各货种主要影响因
本研究基于战略管理理论和社会资本理论,以"双元"视角为出发点探究市场导向在新企业构建网络关系过程中发挥的作用,以期揭示前瞻型市场导向和反应型市场导向对新企业构建政府
语料库语言学是一种新兴的研究手段,近年来逐渐引起语言学家的兴趣和关注,成为一门独立的语言学分支学科,其研究成果被广泛应用于各个领域。任何一种语言学研究方法都有其哲
目的探究曲唑酮治疗抑郁症患者睡眠障碍的临床效果。方法选取我院抑郁症患者,其同时存在一定程度的睡眠障碍。对其展开分析,探究曲唑酮在其中的应用效果。结果研究组和对照组
2009年对于中国广播电视是重要的一年,既是建国60周年,也是广播电视辉煌发展的60周年。站在新的历史起点上,广电行业正面临新的挑战:体制机制的变革、"三网融合"的趋势、视听
目的通过对典型医院临床用药的汇总分析,为规范医院合理用药提供参考。方法针对中国药学会提供的全国22个中心城市典型医院的用药数据,分析其用药金额构成及进口药品用药金额