游客行为数据接入与智能推荐方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:toneygao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“互联网+”不断为旅游业赋能,并由机器学习、大数据从软件层面为旅游业发展提供动力,对传统的旅游领域带来了深刻的变革,在由旅行社主导的传统的跟团游之外,个性化出游愈加的成为人们的出游选择,同时在线旅游整合旅游景点门票、酒店、餐饮、游玩资源的线上销售模式中,产生了大量的游客行为数据,如何对这些数据进行准确的收集获取,进而对用户偏好进行细粒度的捕获成为亟待解决的问题。由于现有的序列推荐算法大多着眼于从整个交互序列提取单一的向量表征用户偏好,对其他辅助信息难以做到充分利用。本文首先针对在线旅游领域的特殊性,选用自注意力机制和商品分类信息的序列推荐方法实现对旅游电商平台的高性能推荐。同时随着游客行为数据的激增,在构建推荐服务时,推荐模型的训练在单机模式下难以满足数据量和时效的需求。为解决上述问题,引入分布式流式处理模式,将游客行为数据建模为时序数据模型,提出了一种基于Spark生态系统的分布式流式推荐模型,运用变分推断结合隐因子模型进行商品推荐。本文的主要工作和贡献如下:(1)为实现游客行为数据的收集工作,实现了基于Flume+Kafka+Spark Streaming的游客行为数据的接入服务,并构建游客行为大数据云平台,运用可视化技术,实现对旅游行业的大数据分析监控。同时在充分分析、整理和研究的基础上,经过脱敏处理后,提取有效字段,分析游客行为特征,构建了基于游客行为的旅游推荐数据集。(2)提出了面向旅游电商领域的基于自注意力机制和商品分类信息的序列推荐算法(Self-attention based Multi-hop Sequence Recommendation for Tourism E-commerce,SATMSRec),STMSRec充分考虑用户交互序列间的时间间隔和序列的绝对位置对输入序列运用自注意力机制进行特征处理,随后将序列输入GRU网络学习全局偏好,然后结合商品层次性分类信息构建多跳推理模型学习多跳偏好,以达到多层次对用户偏好进行捕获。(3)为解决海量数据的训练任务同时适配旅游流式场景,依托Spark生态,提出了基于时序变分推断的流式推荐模型(Temporal Variational Inference based Distributed Tourism Streaming Recommender,TDTSR),使用Mongo DB和HDFS作为分布式数据存储,通过Spark RDD进行数据的流式输入处理,流式推荐模块在深度贝叶斯学习范式下结合深度因子分解模型,运用GRU神经网络结合变分推断构建预测过程,最后将模型运行于Spark On Tensorflow下实现并行化训练。
其他文献
糖尿病被称为一种多病因的代谢类疾病,具体指由于体内胰岛素的分泌或作用产生缺陷,从而导致人体由于血糖、脂肪和蛋白质的代谢紊乱所造成的疾病。糖尿病逐渐成为继心脑血管疾病、肿瘤类疾病之后第三大威胁人类生命健康的慢性疾病。随着《“健康中国2030”规划纲要》的提出,人们愈发重视自身的健康程度,但受限于现阶段的医疗技术,糖尿病尚无有效的治疗手段,只能通过外界注射胰岛素进行缓解与控制。因此,对血糖进行及时而又
web2.0时代的到来,不仅为互联网和计算机科学领域带来了海量数据,还带来了新的数据类型。树结构正是这些新出现的数据类型的一种,它在计算机科学、语言学、生物学、图形学等领域的数据组成上占有重要的地位。而在这些领域中,用户更想通过度量不同树结构数据之间的相似性来完成一些特定检索、匹配等任务。但目前树结构相似度计算方面仍然存在着许多挑战:一、数据量大导致计算耗时严重;二、算法运行占用空间大;三、计算结
学位
随着电子通信系统的进一步发展和数据的大量产生,人们对数据传输速率的要求也越来越高。由于并行传输不能满足日益增长的数据传输速率的要求,SerDes技术逐渐成为人们的首要选择。然而,有线传输信道存在介质损耗、趋肤效应等非理想因素,这些非理性因素会导致信号的失真,严重降低了接受端的信号质量。为了恢复接收端的信号质量,均衡技术便成了高速SerDes系统中必不可少的一部分。在传输速率不断提升的趋势下,本文研
脑-机接口(brain-computer interface,BCI)系统在大脑和外部设备之间建立直接联系,通过识别大脑信号,把大脑活动直接解码成外部设备的控制指令。BCI系统在军事、教育、医疗、娱乐等方面得到了越来越多的应用。基于运动想象的BCI系统与人的自然想象和运动控制更加契合,因此本文主要研究运动想象脑电。由于运动想象脑电信号样本量小、信号维度高的特点,通道选择的作用显得尤为重要。过多的电
投影同步是一种重要的网络同步方式。在实际生活中投影同步现象非常普遍,如飞机编队的同步飞行、火箭的精准定位、保密通信等,因此,投影同步问题的研究具有重要的理论意义和现实意义。然而,已有的对复杂网络上的投影同步研究还存在诸多不完善的地方,具体有如下三个问题值得进一步探索。首先,已有投影同步的研究中尺度因子是一致的,对于实现网络投影同步来说条件过于苛刻。其次,为了实现给定尺度因子下的投影同步,往往需要追
电阻抗断层成像技术(Electrical Impedance Tomography,EIT)是一种体外检测的功能性成像技术,通过对被测对象的电导率分布或者电导率变化进行成像,提取人体生理和病理特征,与传统CT、核磁共振成像相比有着无辐射、便捷、成像速度快和设备成本低等优点;但是,目前的EIT系统普遍存在欠定性、非线性和病态性等问题,造成成像质量较低。边界电压变化对电导率分布变化不敏感的病态问题,求
目前,以深度学习为代表的目标检测算法,如:You only look once(YOLO)、Single Shot Multi Box Detector(SSD)等单阶段的目标检测算法已体现出的较高的检测率和稳定的检测效果,但是,此类检测算法在一些特定的小目标检测应用中,如车站广场人群密集的人脸目标、航站楼远处的飞鸟目标等,由于这些目标相对和绝对的大小都非常小,传统的检测算法针对这些小目标的检测率
社交媒体已经成为人们日常生活与社会交往不可或缺的重要场所,全球数十亿用户每天都会花费大量时间活跃在社交媒体平台上,这些网络平台已经成为人们实时交流、获取信息的工具。然而社交媒体的开放性和便利性同样也孕育了许多潜在危险,大量恶意账号和虚假信息充斥着社交网络。异常检测是识别社交网络上正常或异常活动的重要数据分析手段之一。图卷积网络(Graph Convolutional Network,GCN)作为一
现实生活中的许多场景都存在着样本标签不确定的问题,即样本在其对应的候选标签集中,只有一个标签是真实的标签,其余标签为伪标签,如何利用标签不确定的数据训练得到一个稳定的分类模型,是偏标记学习的主要研究任务。但是在传统的偏标记学习算法中,很少有方法考虑到标签的关联性,分类模型的泛化性以及数据的不均衡等问题。基于这些问题,本文主要做了以下几个方面的研究工作:1、提出一种改进特征引导消歧的偏标记学习算法(