论文部分内容阅读
随着移动互联网技术的飞速发展,基于用户行为和用户移动性的多源异构数据感知、存储、分析与应用的研究成为大数据时代具有挑战性的课题。一方面,数据量的急剧增加导致了传统数据挖掘算法的性能逐渐下降,数据种类的多种多样使得传统的数据融合和存储的方法无法处理异构型数据;另一方面,数据价值密度低导致了传统数据分析方法优势丧失,数据更新速度加快、时效性高对数据处理与分析的实时性提出了巨大挑战。另外,多源跨域数据的输入与输出过程对实时性要求很高,利用传统的数据感知、存储、处理和分析的一系列方法显然已无法满足用户对实时处理海量、多源异构、高价值、高时效性这四方面数据的需求。如果对海量数据采用云计算的分布式处理技术,对多源异构数据构建情境,恰当的规则控制好高价值数据的输入和输出,高效的软硬件算法和设施结合,或许能较好的缓解大数据时代对用户数据需求所造成的压力,并更好的满足用户的信息需求。本文针对上述基于多源跨域数据感知、融合、存储、分析与应用所存在的问题,以移动互联网中用户行为和用户移动性的挖掘研究为目标展开研究,并分别从用户关系和用户在城市中的移动行为两方面进行了论述。因此,本文的主要贡献包括以下四个方面:(1)针对社交网络中的用户关注行为,提出了一套针对微博用户可信度问题进行评估的方法。其基本思想为:首先提取决定用户可信度的五个重要特征:粉丝数、微博数、关注数、收藏数和互粉数,通过这五个特征来进行用户可信度得分的计算,即利用它们为每一个微博用户给出一个可信度得分的分值,这个评分过程包括用户自评和用户间的互评,从而针对这两类评分过程分别建立了用户自评估模型和用户互评估模型,经过两套计算模型得出用户可信度的最终得分,然后把该分值按照的得分高低进行TOP排序,从而评估出用户可信度的高低;(2)针对城市计算研究中的用户移动性问题,提出了基于位置的移动社交网络中的W5模型。该模型能够较好的描述日常生活中的用户移动行为,它建立的动态情境能够很好的解释用户(Who)何时(When)在何地(Where)做何事(What),其原因(What)是什么的问题。与现有的W4模型相比,其优势在于它建立的动态情境不仅能够解释用户当前情境的行为,而且能够解释用户上一情境的行为,同时还可以预测用户下一情境的行为。其基本思想为:首先提取建立用户移动行为的五个情境要素,即5W。其中,Who、When和Where分别对应于数据集中的user id、check-in time和GPS经纬度坐标,是可以直接获取的数据项,文中称之为显式要素,What和Why由于与用户所发微博内容和主题相关,需要经过文本提取技术对微博文本进行关键词提取,因此是间接获取的数据项,文中称之为隐式要素。情境要素提取后,利用联合概率计算公式对此五要素建立联合概率计算模型,并根据计算公式的推导依次解决情境解释和情境预测问题;(3)针对城市计算研究中的兴趣点推荐问题,提出了基于位置的移动社交网络中的PMR架构。该架构提出了一整套完整的情境感知、情境存储、情境推荐和用户反馈的计算方法。其基本思想为:借鉴已存在的PMJ模型在人工智能认知技术方面的优势,并结合情境相关的计算方法,建立了一套能够进行用户信息的情境感知、情境存储和情境推荐的推荐系统架构,并分别给出架构单元中各组件的计算方法和运作流程,最后通过用户反馈单元对推荐方案的性能进行评估,使得该架构能够动态自适应的修正自我以满足用户的的实际需求;(4)针对城市计算研究中的用户移动性问题,提出了基于用户角色和城市地域结构的互推断模型。该模型分为两个子模型,即通过用户角色推断基于情境要素的地域结构的子模型MUR→RC和通过基于情境要素的地域结构推断用户角色的子模型MRC→UR。基本思想概述如下:通过用户角色和他们经常活动的区域,结合已存在的城市地域结构划分,推断用户在某一时段的活动范围属于城市中的何种地域结构。同理,根据城市地域结构划分结合用户在特定时间频繁活动的区域推断该用户属于何种用户角色。该模型能挖掘用户随时间变化在城市地域结构间活动轨迹的变化规律,且当数据项缺失时,该模型能根据已存在的数据项对缺失数据项进行补充。上述研究的四个方面均是针对用户行为的挖掘研究,其中用户可信度评估的研究属于用户关系行为的研究,W5模型和兴趣点推荐问题是属于用户移动行为的研究,而用户角色与城市地域结构的互推断研究属于用户关系行为和用户移动行为的综合研究。四方面研究的实验均表明,通过建立较好的数学模型,多源跨域移动互联网中的用户行为,是可以被准确地描述和预测,进而被转化实际的产品为改善人类在城市中的生活而服务的。