一种基于时间变化的用户出行和特征的可视化方法研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zb_lion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: 移动智能终端能方便地通过GPS获取大量的用户位置数据,从而清楚地知道用户的位置轨迹和关键地点。为了有效发现移动用户的行为特征,通过采用POI分类原则对用户位置建立兴趣点语义,并使用了基于时间变化的移动用户兴趣关联模型的挖掘算法,得到了具有不同出行特征的人群,从而提出了基于走势图和桑基图的可视化展现和分析方案。最后,根据分析研究,实现了对移动用户出行和特征的可视化方法研究,并通过实际案例验证了可行性。
  关键词:时间变化;关联分析;可视化;行为特征
  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)33-0012-04
  如今,随着移动智能终端的普及,越来越多的移动设备都具备GPS功能,用户使用一些电子地图时,比如百度地图、高德地图等,会收集用户活动位置的GPS数据,对这些数据的分析能帮助软件商更加了解用户的行为特征,有助于在以后的软件功能升级中加入对用户使用软件习惯的决策考虑,提高软件的用户体验度。数据的关联规则挖掘来自大事务数据集之间的关联和统计的发现,主要考虑支持度和置信度。对于手机用户,由于可以无缝上网的特殊性,随着时间的推移,出行位置变化会呈现一定的规律性,关注在最近用户出行位置的情况能更有效反应用户的出行爱好。通过对分析的数据进行可视化的展示能更加直观展示隐藏的信息。
  1相关工作
  1.1数据处理
  当用户使用电子地图app软件时,它能收集用户活动位置的GPS数据,并通过移动互联网将代表用户位置的经纬度数据传输到服务器,通过对这些数据的分析对于了解用户的行为趋势具有至关重要的作用。为了有效获取用户的地理位置数据,采用了数据统计技术,在统计的基础上对数据进行清理、集成、存储和转换,并根据POI分类原则对位置建立兴趣点语义,从而对得到的结果进行聚类分析,采用K-means聚类算法,是一种数据点到目标点距离作为最优的分类算法,通过聚类能得到位置语义兴趣相似的类[1],对相似的类采用FP-Growth算法进行兴趣点关联分析[2]。
  1.2数据可视化
  数据可视化是利用各种可视化技术,将数据展示出来,帮助用户更好的理解和分析数据[3]。本文采用基于走势图和桑基图的可视化展示方案,走势图是一种紧凑简洁的数据趋势表达方式,建立在折线图的基础上,使用高度密集的线段来表示数据随时间的变化趋势,但因为大小的限制,不容易表达太多详细信息。为了解决这问题,提出了结合网络图特征的走势图,能达到更好的可视化效果。桑基图是一种能量分流图,特征是开始和结尾的总体宽度相等,最重要的是能很好展示出不同时间段数据间的脉络关系。
  2基于时间的用户出行数据关联分析
  本文课题研究是基于移动终端出行数据的用户特征可视化,试着发现用户日常行为中相似的行为特征,更好地了解移动用户的行为习惯。根据这一需求,确定了本文研究整体流程,如图1所示,主要分为4个步骤:1)获取研究需要的移动出行数据;2)根据需求对数据进行筛选,整理出有效的数据;3)对整理好的数据建立可视化模型,根据模型选择合适的可视化方法,进行可视化映射;4)根据展现的结果,结合出行的需求和实际情况分析反馈,获得满足要求的可视化结果。
  2.1问题分析
  移动设备上能方便获取用户的出行位置信息,通过对移动用户位置数据运用数据挖掘技术,得到移动用户出行爱好的特点,系统中需要统计用户出行的情况,重点在于时序变化、人群比较、出行规律:
  a) 移动用户出行位置的随机性。移动用户的出行位置点具有连续性,一天时间内每个不同的位置点变化都是相互关联的,但是用户出现的位置点受客观的影响是不确定的。
  b) 移动用户出行位置的规律性。在大部分情况下,移动用户的访问都是有规律的,如家>公司>家这样的出行组合;像周末、节假日会出现不同的访问情况,如家>其它(去医院、出差等)>家这样的出行组合,并不能说这些特殊的情况没有研究价值,它可能在很长一段时间重复的出现。
  2.2影响移动用户出行的因素
  一些特殊时间、事件会影响移动用户的出行,如遇到节假日和周末会对出行产生一些变化,因为周末和节假日用户在工作单位出现的几率会明显降低,而在其它地点如健身场馆、商场等出现的几率会升高。对于出行会产生很大的影响还有两个因素:用户的年龄、性别。由于用户年龄和性别的差异,如身份因素学生、白领、退休职工等不同而选择相异的出行。
  2.3用户出行规律和平均使用手机时长的关系
  用户使用手机时间的长短会因为出行位置地点的不同而发生相应的变化,这种变化也具有一定的规律性,如在工作单位的时候使用手机的时长可能会比较短,下班后晚间在居住的地点使用手机的时间会相对增加;在上下班往返于居住和工作环境的时间里使用手机时间可能也相应增加。
  2.4移动用户出行数据处理方法
  出行数据的处理方法流程包括清理数据、集成数据、存储数据、转换数据:
  (1) 数据清理。噪声信息和错误信息等很多存在于原始数据中。
  (2) 数据集成。进行集成不同相似度数据,如九寨沟属于旅游景点类的。
  (3) 数据存储。将集成好的数据进行存储。
  (4) 数据转换。对存储好的数据进行有目的的挖掘,转换得到有价值的结果。
  2.5移動用户出行数据POI兴趣点
  通过手机GPS获得了用户的位置数据,为了更好的分析移动用户的兴趣位置,采用POI兴趣点分类位置数据,兴趣点(Point of Interest,简称POI)在用户地理信息系统中,包含名称、类别、经度和维度这四个方面的信息,它可以是一所学校、一个操场、一个汽车站等,能更加准确的确定用户的兴趣位置。潘明远等[4]通过研究地理信息和对自然语言的处理,总结了POI分类的原则和方法,并构建了POI分类模型。   2.6POI兴趣点分类
  根据移动用户的出行行为特点,结合POI分类的原则,将用户位置数据分为一级、二级的层级结构两类,其中一级类是和人们生活密切相关的美食、购物、旅游景点等17个类,二级类是在大类基础上细分的小类。如表1所示。
  2.7基于时间的关联分析算法
  FP-Growth[5]算法是由韩家炜等提出的使用了一种紧缩的数据结构来存储查找频繁项集所需要的全部信息的关联规则挖掘算法。然而一味地追求效率的提高是不够的,还需要同时针对特殊情况对获得的结果集进行精炼,使数据有更高的置信度。
  1) 通过下面的例子解释这个问题。
  从表2中看出,在4月28日之前,用户只滑动过“NBA台球CBA 足球“,没有滑动过”健康“;并且,在4月18日后,“NBA台球“都是一起被用户所滑动的。根据上面的解释,得出关联规则的置信度:
  A. 从4月15日起:Conf(NBA 台球CBA)=290/500=58%
  B. 从4月18日起:Conf(NBA 台球CBA)=290/40072%
  C. 从4月20日起:Conf(NBA台球CBA)=290/290=100%
  D. 从4月20日起:Conf(NBA台球CBA足球)=180/29062%
  E. 从4月28日起:Conf(NBA台球CBA 足球健康)=90/90=100%
  从中看出:因为在4月28日之前“健康”都没有出现过,所以规则[ 从4月28日起:Conf(NBA台球CBA 足球==>健康)=90/90=100%]看起来更准确。从而能更清晰知道先前滑动的项集(NBA台球CBA 足球)和最新滑动的项集(健康)之间的关联。通过研究最新滑动图片的关联规则,能有助于在策略的规定下,由前期的项集产生关联更强的后期项集。
  2.8基于时间排序的位置语义关联
  大部分关联挖掘算法(如:Apriori、FP-Growth)关注的是提高频繁项集挖掘的效率,而不是根据特殊情况挖掘特殊项集。通常而言,时间因素对历史项集提供一个更高的支持度,对最新的项集有更差的支持度,所以使用流行的关联挖掘算法能得到需要的结果。但是对于特殊项集加入时间的分析,能得到更准确的结果。
  将需要处理的数据从Mysql数据库取出,处理前的数据如图2所示。
  通过运用上面的算法对用户位置兴趣点进行处理,记录每个兴趣点第一次发生的时间,并基于出现时间的先后顺序对获得的频繁项集中的兴趣点进行排序,最终得到的结果如表3所示,对比现实中人的活动规律,得到的组合规律符合实际中人的出行行为习惯。
  3 数据可视化转化
  对大量的手机出行数据进行有针对性的筛选和处理后,通过页面的表现形式对结果进行展示,方便用户可以自己去观察数据中的有用价值。增加新的维度,那么往往只能采用以下办法,增加新的下拉列表、时间轴等与原图耦合度不高的部件来显示,这种部件越多,用户理解起来也会越困难,增加一个两个可以接受,如果维度过多,应拆开为多图显示。基于上述对本次可视化研究问题的探讨和对用户数据的分析,本文采用基于ECharts圖表组件来实现对数据的可视化展示,逐渐探索出了基于移动终端出行数据的用户特征可视化的流程和方法。
  3.1走势图
  通过FP-tree对多维数据的分析处理,我们选择采用个性化的走势图来展示,需要展示的移动用户信息,包含时间、年龄、出行位置、性别,其中时间和年龄是固定不变的,属于静态数据,出行位置、平均使用手机时长是随着时间变化的,属于动态数据。普通的走势图不能体现不同位置语义的问题,为了解决这个问题,结合网络图方法,展示关联规则,可以利用不同颜色的结点代表项目,结点之间的连线代表项目间的关联关系。如图3所示,采用不同的颜色视觉编码来表示出行位置语义。
  3.2桑基图
  为了更好让用户查看到不同人群的关联分析结果,采用桑基图(Sankey diagram )来展示数据,常用于能源、材料成分、金融等数据的可视化分析,能很好地展示数据间的分流合流情况。桑基图中的基本图形是不同宽度的矩阵,用不同的面积代表数据的大小,配以不同的颜色能更好地区分不同的实体,使用线的走向代表数据的分流、合流情况。最终得到的桑基图形式可视化展示的结果如图4所示。
  桑基图能更好地利用空间,每个矩阵能很清晰的显示每个出行位置人数的多少,通过观察线的走向可以看出人群流向不同矩阵的分布情况。桑基图比较适合展示人群活动流向关联的可视化效果。
  4案例分析
  4.1总体规律
  为实验准备了10万条用户出行位置数据,每一条数据都对应POI兴趣点中的类,每个用户每天八个时间段最多有八个兴趣点,这些点中可能会有重复的,如住宅、宿舍的兴趣点可能会出现在凌晨、早晨和晚上三个时间段。我们使用FP-tree,对所有用户一个月内每天出行兴趣点进行关联分析,对得到的分析进行时间排序,得到结果见表3。
  如表4所示,将一天分为8个时间段。
  从表3中得出的数据关联结果,结合表4中不同时间段,找出对应的出行兴趣点,得到如下的活动情况表,如表5所示。
  从表5中人群活动的情况我们可以看出,所有人群的特征可以归纳为3种:
  a) 出行特征规律是(家->公司->家),如人群1、人群2和人群6。
  b) 出行特征规律是(宿舍->学校->宿舍),如人群3。
  c) 出行特征规律是(家/酒店->其它->家/酒店),如人群4、人群5和人群7。
  根据实际调查的情况,数据对比一致,这3种活动规律的人群确实能代表大部分用户的行为特征。不同人群可视化展示效果如图4所示。   4.2特殊时间、事件对用户出行影响的分析
  从所有数据中选出周末、节假日的数据,对这些数据进行关联分析,对得到的结果进行可视化展示效果如图5所示。
  从图5中可以看出,在周末和节假日用户的出行特征会产生明显的变化,去学校和公司的人群明显减少,而出行特征规律(家/酒店->其它->家/酒店)的用户明显增加。如图6所示,
  周末因为不上班和不上学,所以教育和公司两个位置的人数明显比工作日少;而节假日的到来,很多用户会选择旅游、回家等,相对工作日和周末,酒店和其它(如:旅游景点等)的用户数会出现大量增长。通过以上对比分析,结果符合现实中大部分用户的行为习惯,所以,以上的分析是合理的。
  5总结
  本文完整地介绍了一种基于时间变化的用户出行和特征的可视化方法研究。从大量用户的移动位置数据中,对数据进行处理、分析和POI分类,获得符合需求的用户特征数据。并利用可视化技术,将数据清晰地展示出来,从而帮助软件运营商推送更精确的信息给用户,提高用户的体验度。为此,使用关联分析算法获得用户出行兴趣点之间的相似性,结合时间排序对关联兴趣点进行对应时间段的映射,通过桑基图结合时间将一天用户活动规律可视化展示出来,以此来实现对移动用户出行特征的分析。
  參考文献:
  [1]罗倩.K-means聚类中心的鲁棒优化算法[J].计算机工程与设计,2015,36(9):2396-2400.
  [2]曹鹤玲,姜淑娟,鞠小林,等.基于动态切片和关联分析的错误定位方法[J].计算机学报,2015,38(11):2188-2202.
  [3]张宏鑫,盛风帆,徐沛原,等.基于移动终端日志数据的人群特征可视化 [J].软件学报,2016,27(5):1174-1187.
  [4]潘明远,方金云,章立生.基于用户反馈的POI搜索引擎优化研究[J].计算机工程与应用,2010,46(32):112-115.
  [5]Han Jiawei, Pei Jian, Yin Yiwen. Mining frequent patterns without candidate generation[C] // SIGMOD’00. [ s.l.] :[ s.n.] ,2000.
其他文献
随着网络规模的不断扩大,边界网关协议BGP应运而生。根据BGP路由协议的特点,本文提出了由学生自主设计BGP网络,模拟企业BGP的实现过程,给出了实验设计的组网需求及参考拓扑,并以此实验为例详细介绍了实验教学配置全过程。实践表明,该实验设计不仅能够使学生更好地理解和掌握BGP路由协议的理论,而且能够很好地提高学生的创新设计和工程应用能力。
文中通过对ASP.NET技术的介绍,分析了采用分层模型的好处。对Web应用程序中所广泛采用的三层设计模型进行分析介绍,最后以实例化的方式对三层模型开发的过程进行详细说明。
摘要:众所周知,单端反激变换器是应用广泛的一种开关电源拓扑形式,具备许多优良的特点。变压器的设计是电源设计过程中非常重要的组成部分。该文通过120W功率变换器的设计,可以提供一些反激变换器设计的参考方法,并通过反激变换器的一些实测波形,对其他开关电源拓扑的设计也有一定的指导作用。  关键词:反激变换器;开关电源;实测波形;连续导通模式;断续导通模式;临界导通模式  中图分类号:TP311 文献标识
通过对现有体育赛事机器新闻写作的作品分析,指出其存在逻辑运算难以实现语义理解、数字冲突难以转化为趣味表达、非结构化数据难以被机器运用等现实困境。提出应通过数据积累
摘要:分析了传统LINUX 实验平台存在的不足:系统环境容易受到修改及破坏、硬件设备支持不足、难以做到“教学做”一体化。讨论了构建虚拟机LINUX实验平台,可以“无限”扩展硬件设备,对系统进行破坏性修改及调试而不会影响系统,实验过程实现“教学做”一体化等等,有效地解决了在物理机上实验存在的不足。  关键词:虚拟机;LINUX;Vmware;实验平台  中图分类号:TP393 文献标识码:A 文章编
体育锻炼中产生的广泛联系为社会资本的创造提供良好平台。利用2014 JSNET(2014年社会网络与职业经历)8个城市的调查数据,将社会资本分为个体社会资本和集体社会资本,探索体
摘要:随着采油厂作业区不断精细深入,油井数及注水量也逐年增加,电量录入及分析工作量大幅度增加的情况下,对电力的管理也提出了更高的要求。针对采油厂电力设备的信息化管理要求的不断提高,提出了采用ASP.NET MVC框架的生产用电统计分析系统。通过建立生产用电统计分析系统,实现电力设施和电力数据的统一管理和信息共享。实现电力设施和电力动态数据的集中管理和各类分类查询以及统计分析图表功能,提升电力管理日
大数据(Big Data)是当前学术界研究的热点。大数据技术正改变着人类的生活习惯和工作方式,但大数据在采集、存储、挖掘、发布的过程中存在着诸多安全性问题,对信息安全造成了一
随着Internet的飞速发展,学校办公已进入信息化操作,基于C/S模式的客户端软件已经逐步被B/S模式的WEB系统所取代。为了实现高校教学管理、质量监控的网络化系统。采用ASP.NET
摘要:最近几年,信息技术得到了飞速发展和普及,极大推动了各个行业的信息化进程,计算机在社会发展中发挥着越来越重要的作用,并且逐渐改变着人们的日常工作和生活。作为计算机中一项至关重要的内容,计算机软件是计算机得以正常运行的基础,做好计算机软件的开发工作非常重要。该文结合计算机软件的相关概念,对软件开发技术的特点和重要作用进行了分析,讨论了当前形势下计算机软件开发技术的实践应用,并就其未来发展趋势进行