一种整合社交网络地理信息数据的方法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zhz_8512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着智能移动设备的普及,地理信息数据的应用更加广泛,整合多源的数据,才能更好的使用。该文采集了源自社交网络的地理信息数据,并使用距离和名称两种匹配方法,将数据整合。
  关键词: POI;地理信息;社交网络
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)21-0203-01
  随着移动设备的不断普及,地理信息(POI)数据的用处已经越来越广泛。任何移动设备应用,很多需要位置信息匹配周边环境。因此,POI数据拥有广泛的应用空间,本文将不同源的POI数据整合。一般的POI数据,有POI名称、纬度、经度、、地址、分类、邮编、联系电话、网址、营业时间等。
  1 POI数据采集
  本文选择的POI数据源是Facebook和Foursquare的。其中Facebook作为主要数据来源,利用Facebook提供的API和FQL,就可以获取所需要的POI数据。
  1.1 Facebook的Graph API和FQL
  Facebook的Graph API是获取其网站数据的主要方式。它是一个基于HTTP的简单API,可以用来查询数据,发布信息,上传照片和各种应用程序可能需要执行的其他任务。Graph API由以下内容组成:
  ·Nodes(比如一个用户,一个图片,一个页面,评论)
  ·Edges(Nodes之间的联系,如页面的照片或照片的评论)
  ·Fields(Nodes的信息,如用户的生日,或者页面的名称)。
  所有的请求都会被送往graph.facebook.com。每个节点都有唯一的ID以便API访问,同时还可以访问属于节点的联系。
  FQL是Facebook的查询语言,开发人员可以使用SQL风格来查询的GraphAPI的数据。与SQL有所区别的是,FQL的FROM子句中只能包含一个表。
  1.2 Foursquare的API
  Foursquare的API使用URL访问相应的资源。其许开发者在数据库中查找包括提示、照片、签入计数等各种信息,还可以搜索某个固定位置附近的点及周边推荐。
  Foursquare的另一个特点,是可以直接使用自然语言的方式,搜索某个类型的地点(如果数据库当中存在的话),并且添加各类变量。
  2 POI数据的整合
  从社交网络获取数据后,还需要预先处理,预处理的目的如下:
  1)验证POI数据集
  核查是重要原因所有的POI数据是用户生成的,需要了解POI数据的有效与否。
  2)匹配并去除冗余
  对于冗余数据导致不可靠的和不必要的数据POI数据,需要加以处理。
  3)全局了解POI数据集
  需要建立相结合的POI数据,但是,哪些类别是有用的,哪些是没有用的。系统采用的技术方案分为以下几个步骤:
  对于起初的POI数据匹配,首先将不同来源的数据抓取到数据库暂存,因为API的关系,可以确定这些数据的字段,并且可以直接存入数据库。
  此后,将某一个源的数据作为蓝本,通常使用数据量更大的,这样可以减轻匹配的工作量,这里假设以Foursquare数据作为蓝本,则需要对每一条新的Facebook数据,采取以下两种算法进行匹配,从而决定其是否为冗余数据,架构如图1所示。
  在此基础上两个标准,建立一个基于距离和名称的标准来判定这两条数据是否匹配。POI数据匹配的算法如下:
  1)用Facebook POI数据与Foursquare的数据进行比对;
  2)如果多个结果产生:
  A. 检查POI位置之间的距离,并找到最近的POI
  B. 最近的POI后,选择比较之间的两个POI数据的名称
  C. 如果匹配FOUND选择匹配的数据集D中的POI和存储。
  D. 否则选择下一个最近的POI并转到步骤B。
  距离匹配:
  不同源的社交网络产生相同POI数据非常常见,因此选择一定的阈值范围作为基准,然后计算该范围内的POI与当前POI数据之间的欧几里得距离。步骤如下,采取Foursquare数据作为基准,从Facebook数据查询的POI,找到所有最近的POI数据,并计算它们之间的距离。检查POI数据之间的最短距离。当你有两个POI显示相同的位置,如果两者完全在同一位置,则可以确定是同一个数据,如果不是,则再使用名称匹配。
  名称匹配:
  使用该POI的名称来匹配是匹配算法的第二个步骤。两个源的不同数据,必然导致POI的名称有很多变化。为了匹配,使用以下两个方式来精确匹配:
  1)标准子串匹配(LCS)
  2)Levenshtein距离
  在相关技术中的讨论,Levenshtein距离是测量两个序列之间的差异的字符串。通俗的说,就是改变一个字成其他字所需的单字符编辑操作(即插入,删除或替换)的最小数量。标准的子字符串匹配是常见的算法,将名字划分程子串与字符串源的每一个部分匹配。
  3 结论
  通过以上这些技术,实现了对源于社交网络的地理信息的初步整合。不过,还有一些可以完善和改进的地方,特别是对于大量的冗余的处理。这就有待进一步的研究来实现了。
  参考文献:
  [1] "Grphapi developers documentation," ,Facebook Inc., https://developers.facebook.com/docs/graph-api, 2016-04-10.
  [2] "Documentation of Foursquare API," ,Foursquare, https://developer.foursquare.com/..2016-04-10.
  [3] Navarro G. A guided tour to approximate string matching. ACM computing surveys (CSUR), 2001,33(1):31-88.
其他文献
达那唑为人工合成的一种类固醇杂环化合物,主要用于子宫内膜异位症、纤维性乳腺炎、痛经、性早熟、自发性血小板紫癜和系统性红斑狼疮等。目前临床上常用的剂型为胶囊剂,也有阴
本文利用傅立叶红外光谱(ATR)法对送检的纤维样品进行鉴别。结果表明,红外光谱(ATR)法对于分析纺织纤维样品,分析速度快、样品需求量小,而且无损、不消耗检材,实验结果准确可
探讨抗人小扁豆凝集素结合型甲胎蛋白异质体单克隆抗体对原发性肝癌细胞的特异性亲和力及放射免疫显像。应用^131I标记的AFP-R-LCAMcAb对11例AFP阳性肝癌患中有9例肿瘤区显像,而6例AFP阴性肝癌及4例肝炎后肝
目的:探讨急性期反应质α1酸性糖蛋白(AGP)对中性多形核粒细胞(PMNs)吞噬和杀菌功能的影响。方法:大鼠静脉注射AGP,以大鼠游移型和非游移型PMNs在吞噬过程中的化学发光为检测指标,并将经AGP调理后的PMNs与酵
目的:研究胫后神经体感诱电位(SEP)对脊髓病变的定位诊断价值。方法:电刺激胫后神经,于腰椎、胸椎、颈椎和头皮置记录电极,依次记录CE,N24,N28和P40电位潜伏期。共检测15例对照组和29例经磁共振(MRI)证实的腰
对直接爆炸焊接困难的5083铝合金与CCSB钢组合,采用加入中间层板CCSB一次爆炸焊接的可行性进行了试验探讨,确定了界面处的微观结构和爆炸焊接的参数范围。试验表明,爆炸时较
伊斯坦布尔大区政府积极推动伊斯坦布尔城市公共空间复兴。公共空间被定义为“有活力的、可达的、自由的、令人愉快的、和平的和安全的地方,一处人们可以呼吸并建立民主和社
摘要:专业的机械设备已经成为现代农业不可或缺的一环,提高农业机械的利用效率,可以迅速提升粮食产量,对农业发展具有重要意义。目前,环境保护意识也在不断深入人心,坚持可持续发展的道路,同样也是现代农业需要重视的问题。文章就农业机械的高效利用及其节能环保的优势进行分析,并结合当前农业发展的需求整理出相关意见,希望对提升农业经济和环保意识具有一定积极作用。  关键词:农业机械;高效利用;节能环保  农业机
探讨了中晚期大肠癌患者外周血单核细胞(PBM)分泌、膜受体的表达及信使传递介质的变化及PBM对NDV修饰的大肠癌细胞株杀伤活性。结果表明:(1)正常人单核细胞经诱导后均可释放和表达
活性染料在低带液量条件下具有较高的固色率,为进一步了解低带液量时影响活性染料固色率的因素,试验探讨了棉织物带液量、Na_2CO_3质量浓度、固色温度、固色时间、Na_2SO_4加