论文部分内容阅读
兴趣点(Point of Interest,POI)是地理信息系统中表示地物的数据集,它主要包括名称、类别、经度和纬度四个方面的信息。全面丰富的POI数据是地理位置服务(Location Based Service,LBS)的必备资源。但是LBS行业日益增长的服务需求与低效的传统采集方法之间产生了巨大的矛盾,传统采集方式采集速度慢,更新周期长,无法满足LBS行业对POI数据的需求。而现在网络资源极其丰富,其中不乏海量的POI信息。鉴于此,本文致力于从网络文本地理信息中获取POI数据的相关技术的研究,研究工作主要包括以下三个方面:首先,研究主题网络爬虫技术以获取POI敏感网页。为了能够获取与POI信息高度相关的网页,本文将网页内容的结构化信息加入到传统的网页特征向量生成算法之中,强化特征向量对网页内容的表达,以此提高主题网络爬虫抓取网页的准确率。此外,本文还在主题网络爬虫的主题判定中加入了主题阈值和主题向量自动调整功能,来提高主题网络爬虫对POI敏感网页的发现率。其次,研究了条件随机场模型在中文命名实体识别中的应用。利用条件随机场模型对网页文本中的POI的名称以及地名进行识别。由于识别出的地名串不能作为地址信息使用,在分析了地址结构的基础之上,本文提出了基于创建地址模型的地址识别方法,利用该方法从地名串中识别出地址信息。最后,研究了POI名称和地址的关联方法。一般情况下一个POI敏感网页中往往包含多个POI名称和地址,如何将它们正确关联在一起,对成功获取POI信息至关重要。本文根据网页的结构化特征,提出基于加权统计的方法和基于路径匹配的方法来解决POI名称和地址的关联问题。此外,由于很难从网页中获取到POI的经纬度信息,本文借助Google Map提供的服务对名称和地址成功关联的POI进行解析,获取POI对应的经纬度信息。之后将所得信息组合成“POI名称,地址,经度,纬度”的形式。本文在上述理论研究的基础之上,进行了系统开发,借助开发的系统进行了POI获取实验,达到了从网络中获取POI数据的目的。