基于LBS签到事件的数据挖掘研究

来源 :软件工程师 | 被引量 : 0次 | 上传用户:shiguanglai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着社会信息大爆炸和大量数据的产生,数据挖掘成了广泛关注的话题。本文从Check-in签到事件的数据出发,回顾了基于LBS的数据分析和挖掘现状。通过对Gowalla数据处理与分析,统计签到事件的数据分布规律,分析用户的签到行为,发现Check-in的时间戳具有明显的规律性,体现了人们的工作休闲活动特点,进一步探讨了签到数据在用户的行为习惯分析及兴趣发现等方面的应用。
  关键词:数据挖掘;地理位置服务;签到
  中图分类号:TP311.52 文献标识码:A
  Abstract:Along with the social information explosion as well as the production of large amounts of data,data mining has become prevalent interest.This paper reviews the development and application of check-in data based on LBS.We draw check-in data statistical distribution and analyze users behavior based on Gowalla data processing and analysis.The conclusions based on experiment indicate that the obvious regularity of check-in time stamp reflects individual’s work and leisure activities.In addition,the paper has also discussed how to utilize check-in data in the field of user’s behavior analysis and interest discovery.
  Keywords:data mining;location-based service;check-in
  1 引言(Introduction)
  近年来,数据挖掘引起了学术界和产业界的极大关注,其主要原因是随着社会发展产生的大量数据,缺乏有效的利用,迫切需要从这些数据中发掘有用的隐含信息和知识。因此,在数据量飞速增长背景下,如何从大量数据中挖掘有用的信息是一个相当热门的研究话题。
  目前,国外流行诸多基于Loction-base Service(LBS,基于地理位置服务)服务的应用软件,例如Foursquare、Facebook、Twitter、Gowalla和Brightkite等。国内,也有互联网公司开发基于位置的在线应用,例如,腾讯QQ空间、微信朋友圈和陌陌等。这些软件或者应用程序能够记录用户活动或者事件发生的地理位置信息,通过用户分享将这些信息推送给朋友用户。
  2 基于签到数据分析的研究现状(Review onanalysis based on check-in)
  Check-in是基于LBS的应用服务,它把分享的信息从虚拟世界延伸到现实,并且提供真正和参与者密切相关的有用信息,这使得LBS展现了其巨大的吸引力和潜在价值[1]。在签到(Check-in)事件的分析应用方面,有研究者在用户价值理论的基础上,融合技术接受模型,探讨了用户价值、感知易用性与服务体验等因素对用户持续使用意愿的影响进行了分析[2]。基于LBS的社交网络用户,是比较愿意分享签到数据和自己的活动情况,并希望能通过签到提高更好的服务体验[3]。北京大学的阴红志通过挖掘时间信息、空间信息以及时空信息,提出了一种结合上下文信息的用户模型和推荐算法,用来改善社会化媒体中的推荐效果和提高用户体验水平[4]。武汉大学的曹劲舟还提出一种基于微博数据的方法,对其签到事件的POI数据更新开展了研究工作[5]。基于位置签到数据还被用于及时准确地获取城市层次性空间知识,有学者提出了一种基于签到属性显著度的差异,从位置签到数据中提取城市分层地标的方法,从位置签到数据中的签到次数、签到用户数和用户影响因子等方面,讨论影响POI显著度的因素[6]。胡庆武提出一种基于社交网络位置签到数据的城市热点探测与商圈挖掘方法,对位置签到数据进行了空间自相关检验,发现武汉市商圈分布与城市规划商圈具有强相关性[7]。还有学者在传统基于社交网络的好友推荐算法的基础上,结合用户的历史行为的GPS地理签到信息,提出用户社交位置距离的概念用于改善推荐效果[8]。
  本文针对国外基于LBS的社交网络Gowalla的Check-in数据进行了深度挖掘和分析,探讨了用户的行为习惯及朋友关系发现等问题。
  3 基于Gowalla数据的统计分析(Statistical analysis on Gowalla)
  本文采用的Gowalla数据集,由斯坦福大学的研究学者从Gowalla网站爬取,并进行了初步整理,数据下载网址:http://snap.stanford.edu/data/loc-gowalla.html,数据以txt文件格式存放。每个基本数据项包含用户ID,签到时间,签到经纬度,签到地点ID等数据项。
  3.1 数据预处理
  斯坦福大学公开的Gowalla数据集,文件较大,用MATLAB或者Java语言编程读取,存在内存溢出等问题。本文采用SQL语句读取数据记录存入MySQL数据库。首先,在数据读入后,删除极个别可能出现重大误差的数据。其次,根据预处理的数据,编写SQL语句命令进行分类统计,统计的结果导入Excel。然后,根据相关的数据分析结果和规律,可以进行相关的深度挖掘分析。   预处理后的数据,是对原数据的数据项进行了拆分,方便后期处理分析。数据包含字段:用户ID、签到时间、星期、时间点、纬度、经度和地点编号。
  3.2 统计用户的Check-in数的概率分布
  数据集合的概率分布统计,可以更直观的了解整个数据大致分布和基本情况。先将所有的基本用户数和用户编号写入数据库的基本表,根据基本表统计签到的数量及其概率分布,进一步可以得到每个签到次数的分布。
  根据数据的分布可以得到散点图如图1所示。
  根据平均签到次数对应的人数,可以计算出前面百分比量级的人平均Check-in次数,如图2所示。
  3.3 统计用户在不同时段的签到习惯
  通过统计用户在每个小时的时间段内的签到次数,如图3所示,可以初步了解用户的签到习惯。
  从图4的结果分析,白天签到的地方有一定的聚集时间段,比如说黄昏的时候,签到的人数比较多,即大多数用户选择签到的时间。
  签到高峰期在傍晚,可以推断大多数人是在下班时间进行工作签到,而签到低谷在早晨,这与现实生活情况比较吻合,在早上刚起床的时间段内签到人数比较少,随着时间推移,活动的人数逐渐增多,签到数量也在逐渐增大。
  当然还可以按照月份统计,如图5和图6根据两年内(按照12个月统计)的签到次数大致可以看出签到次数在9月达到了签到的高峰期,金秋9月天气逐渐转凉,正是出行的绝佳时机,大部分人选择出行,并在出行的过程中签到。
  3.4 根据签到的地理位置分析用户习惯
  根据签到数据中的地理位置,按照地理的纬度将全球以南北回归线和南北极圈做分割。将签到地点大致分为三个板块,即南北极圈内,回归线到南北极圈之间,南北回归线之间。基本操作是选择签到地点在南极圈和北极圈内的签到用户(即Check-in纬度大于66.5度或者小于-66.5度),具体分布详见表格1。
  从表1结果分析,有1%的用户在南北极圈里面进行过签到,2%的用户在南北回归线之间签过,说明这部分人具有探险精神,喜欢旅行与探险,并希望将自己独特的签到地点分享给他人,希望与周围人分享自己的旅行路线。
  3.5 根据签到的时间段统计和分析
  工作日和双休日的签到情况反映用户的作息规律。在周一到周五的11:00—13:00时间段,即中午午休时间段,分析公共交通场所的签到数据,可以推断出拥堵程度。根据统计的签到分布规律,可以找出的工作地点周围的交通枢纽地带。
  因为周末可能有些人不上班,统计工作日比较有代表性。通过对排名的统计,可以推断出在哪些交通枢纽比较拥挤。排名靠前的前三位详见表2。
  4 基于统计数据的挖掘与分析(Data mining and analysis on statistical data)
  4.1 兴趣相同朋友发现
  根据用户的签到地点的地理位置信息,分析地点的现实社会属性,可以发现具有相同兴趣的朋友。例如,在南极有签到信息的用户ID为117874,在2010-09-21T12:53:52Z到达某地(经纬度为-90,-139.266667),记录见下表3。
  然后根据签到地点,查询ID为33843的用户在之前去过南极,他同用户117874可能具有诸多相同兴趣爱好,他们交流去南极的心得体会,并可以交朋友,分享经验等。
  在他到达南极的时候,可以根据签到时间判断是否有人跟他在同一天签到的,如果有的话,且是同一天到达南极,可以联系另一个人,共同探险,使得在南极这个气候恶劣的地方能找到志趣相投的同伴。
  4.2 根据星期来推断工作地点和休闲地点
  根据原始数据将签到时间映射到的具体星期值,通过分析每个星期的签到数,结合相应的信息,可以得出一个人基本的活动规律和生活圈子,以ID编号0的用户为例。
  可以看到用户0在地点420315(506 Congress Avenue、Austin、TX78701美国)签到最多,然后根据地点编号420315找出所有在此处签到的人。
  经过对于之后的数据进行验证,同样在位置420315(506 Congress Avenue、Austin、TX78701美国)签到的人有7、31、52、103749、10290、10300等。
  然而10152在420315处只签到了1次,可以判断出,0上班的公司的地点编号为420315,但是用户10152到0的公司交流过,并在公司使用Gowalla签到。
  而用户66在420315处签到次数为47次,并且是66签到最多的地方,所以可以初步断定用户66和用户0在同一栋办公楼上班,极有可能就是同事,并且之间认识的可能性很大。
  5 结论(Conclusion)
  本文通过对签到信息的分析,从数据上得到一些常规的统计信息,例如查看用户签到最多的地方,用户签到的时间、地点、频率的统计,这些基本的统计有助于了解数据的总体分布情况。根据对Check-in的时间戳进行分析,发现签到信息体现了人们的工作和休闲活动的规律特点。从多个用户的共同签到地点,可以推断他们之间可能存在着共同的兴趣和爱好。这些分析结果,可以为将来的用户在指定旅行规划路线时,进行个性化推荐奠定基础。例如,在旅游出发前,查询某旅游地点A信息,根据已有的好友中哪些已经在A签到过,从而进行推荐。还可以根据签到的地点,得出可能的工作地点和家庭地点,从而推荐周边餐厅或休闲场所等一系列信息。
  参考文献(References)
  [1] 石安.切客盛行,谁将畅享LBS大餐?[J].软件工程师,2010,(11):34-35.
  [2] 周永杰.LBS签到服务中隐私关注及影响因素研究[D].大连海事大学,2013:2-9.
  [3] 徐国虎,孙凌,许芳.网络用户移动签到服务持续使用意愿研究[J].中南财经政法大学学报,2013,(4):131-138.
  [4] 阴红志.社会化媒体中若干时空相关的推荐问题研究[D].北京大学,2014:6-12.
  [5] 曹劲舟,武红宇.基于微博位置签到数据的POI更新方法[J].地理空间信息,2013,11(2):15-18.
  [6] 王明,等.基于位置签到数据的城市分层地标提取[J].计算机学报,2014,37(123):1-11.
  [7] 胡庆武,王明,李清泉.利用位置签到数据探索城市热点与商圈[J].测绘学报,2014,(3):314-321.
  [8] 刘乾.基于社交网络和地理位置信息的好友推荐方法研究[D].浙江大学,2013:16-21.
  作者简介:
  黄喜发(1994-),男,本科生.研究领域:Web数据挖掘.
  刘兴旺(1991-),男,硕士生.研究领域:机器学习.
  孙 媛(1984-),女,硕士,实习研究员.研究领域:计算机辅助语料库分析.
  徐 科(1981-),男,博士,讲师.研究领域:机器学习,社交网络.
其他文献
借助高科技的发展,现代医学发生了巨大变化,其中最重要的趋势是手术有限化和人工智能化:许多过去需要开“大刀”的,现在“小手术”即可解决问题;不少手术更加安全,更加简单。另一方面,随着我国医疗制度的改革和医疗单位之间的竞争,人们在看病方面更加“精打细算”,方便经济的门诊手术将越来越受到众多病人的青睐。  门诊手术一般说来都比较小,危险性不大,来了就做,做完就回去。病人既治好了病,又省去了住院时间和经费
【摘 要】有记者节以来,各大新闻媒体的新闻理念都在发生或多或少的转变。本文通过对《南方周末》历年记者节前后的新闻报道分析探讨新闻媒体的理念追求:新闻本位、人文关怀以及舆论监督。  【关键词】《南方周末》 新闻本位 人文关怀 舆论监督  一家新闻媒体的办报理念决定了这家媒体的立场、原则以及风格走向,而办报理念的高度决定了这家媒体的社会高度。以政府言论为新闻本位的新闻媒体充其量只是政府的附庸,没有自身
生活小窍门五则    眼镜防雾方法:天冷时眼镜片遇热容易发雾气,使人看不清东西。可用半干的肥皂块擦镜片两面,然后抹匀拭亮。用此法,即使到浴室里洗澡,镜片上也不会有雾气。  厕所除味方法:室内厕所即使冲洗得再干净,也常会留下一股异味,只要在厕所内放置一小杯香醋,异味便会消失。其有效期为6-7天,可每周换1次。  热水泡双手可治偏头痛:将双手浸入热水中,水量以浸过手腕为宜,并不断地加热水,以保持水温。
很多曾经被当成“精神污染”的东西实质上只是告诉我们什么是精神,一个人的精神世界不经过这样的污染,简直就不够完整。      有一年,两个姑娘聊天,说起好久没看演唱会了,“你说,谁办个演唱会,咱们两个一定会去看呢?”两个人相对沉思,过了会儿,不约而同地说:“邓丽君。”那时候邓丽君已经仙逝,办演唱会这么一说显得有些晦气,又沉思了那么一会儿,两个人又不约而同地说:“杰克逊。”这又是一场不可能的演唱会——
观看天文科幻电影的益处有很多,比如激发青少年的好奇心和想象力;激发青少年学习天文知识、探索未知世界的兴趣;增强克服困难、战胜敌人的毅力和胆识等等。  天文科幻电影可以从三个层面来欣赏:一是思想性,即电影所体现的意义、价值和精神;二是技术性,如电影的视觉元素(包括人、景、物、光、色等)和听觉元素(包括声音、音响、音乐等);三是科学性,即其中蕴含的知识点。  (回答者:李庆康)天文科幻电影《星际迷航》
毛振明 赖天德 陈雁飞 马 凌  摘要:课程目的不仅在于增进身体健康,而且还有传承体育文化,培养终生体育锻炼意识、能力与习惯;建立“课程目标——领域(或直接称为内容)目标——水平目标(或年级目标)——某水平的内容目标”的目标层次体系;取消“运动参与”的单列目标,将“积极主动参与体育课程学习和体育锻炼”等目标内容纳入其他目标中;将“心理健康”和“社会适应”的目标合并成为“促进心理健康与社会发展”的目
急诊科王医生值班的时候,接诊了一个40多岁的肥胖男子,他左脚踝缠着绷带,神志尚清楚,但呼吸急促,表情痛苦。  了解病情后得知,该男子昨天扭伤了脚,没有骨折,只是韧带拉伤,今晨起来,他觉得胸口发闷,呼吸不畅,开始还以为是睡眠不好,便没有在意,但后来症状越来越明显,才来了医院。  王医生立刻给患者上了心电监护,一看心率135次/分钟,呼吸40次/分钟,血氧饱和度80%,血压75/45毫米汞柱!  休克
由于儿童的免疫系统尚未发育成熟,IgG和具有黏膜保护作用的IgA(免疫球蛋白缩写为Ig)水平均较低,细胞免疫功能正处于成熟过程中,这使儿童处于“生理性免疫功能低下”状态,因此很容易发生细菌和病毒感染。临床上常见疾病有反复发作的呼吸道感染如过敏性鼻炎、支气管哮喘、急慢性咽喉炎等等,这些疾病使许多患儿不能上学和入园,影响了患儿的正常生活,患儿家长也需花费相当的时间和精力来照顾患儿,给家庭造成了较大负担
【摘要】目前,我国电网经营企业在进行电网建设改造项目,其资金来源有银行贷款、发行债券等形式。文章针对当前电网企业“统贷统还”模式下项目借款所产生的财务费用分摊方式作一研究。  【关键词】贷款费用;闲置资金;利息费用    一、绪论    在市场经济条件下,资金是企业生存和发展的生命源泉,对于电网企业来说,为了维持正常的电网建设改造。除了利用自有资金解决部分资金来源外,通常会采取向银行等金融机构借款
【摘 要】 资本结构与产品市场竞争的关系自20世纪80年代以来越来越受到财务学界的关注,对其研究具有很大的理论和现实意义。文章结合我国中药行业的发展状况、竞争格局及趋势,分析了康美药业的融资方式、产品竞争策略和财务结构。结果表明,企业的多元化融资战略是基于产品市场竞争和融资环境,是为了后续发展和避免财务风险的合理选择。   【关键词】 资本结构; 竞争策略; 康美药业     一、引言  国内