基于机器学习的外卖用户行为研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:shao_xiao_dong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的发展,外卖平台作为餐饮行业的大数据互联网应用,对于人们的日常生活产生了巨大的影响。互联网的普及促进了线上交易行为的增加,这使得外卖平台产生了大量且复杂的用户行为数据。用户行为数据一般分为显性反馈行为(Explicit Feedback)和隐性反馈行为(Implicit Feedback)。在外卖平台上用户产生的显性反馈数据主要包括用户与商家的评分等。外卖平台产生的隐性反馈数据主要指用户的历史行为、如历史下单的商家、下单前的浏览记录等。据此,深入研究外卖平台的用户行为数据,发现外卖平台用户的显性行为数据可以直观地体现用户偏好,但由于某些系统的行为如,用户下单后默认好评的系统设定以及商家违规刷单行为等行为的影响,导致显性数据的预测效果较差。同时外卖平台的用户交易行为常伴随时间和空间的因素影响。因此,用户进行的一次交易行为,应该被解读为在某地的用户在某一时间段的交易行为。挖掘研究用户的行为数据,可以更好的为用户进行个性化推荐。在推荐系统研究方面,工业级的模型与学术界研究的模型往往有所差别。针对以上问题,本文的主要工作可以分为以下三个方面:(1)外卖数据集的数据挖掘与数据分析。外卖数据集包含有多个特征集合,具体为用户属性、商家属性和历史行为信息以及商家的点击序列。对以上数据分别进行了数据预处理、数据清洗、数据变换等工作,以便于后面的数据分析工作。通过数据可视化发现,用户的历史行为存在时间周期规律。因此,选择通过特征工程以挖掘构建三种特征,具体包括基本属性特征、交叉特征和时间累积特征,共475个特征。并通过随机森林嵌入法进行特征筛选。(2)探索影响外卖用户购买行为的因素。基于特征选择的结果,结合属性特征,以构建逻辑回归模型研究影响因素。具体发现用户的复购率、商家的类别分类、高范围的价格特征,以及用户所处的蜂窝和时间维度,对用户的购买行为有着较强的影响。并据此提供了相关意见。(3)机器学习模型的预测对比。采用同一数据集分别构建了深度学习模型Deep FM、集成模型Light GBM和单一模型逻辑回归模型,对比了三个模型的预测效果,发现深度学习模型的效果较好。本文最后对本文的整体研究进行了总结与展望。从商家分类和购买时段角度出发为平台营销提出了建议。并从数据集的收集、特征工程和不同角度因素的研究深度方面指出了本文的不足之处以及未来工作的开展方向。
其他文献
股票是股份公司发行的所有权证书,它可以作为获得股息和红利的一种有价证券。但随着金融市场股票研究的发展,国内外学者发现,在信息不对称、监管机制不够完善、投资者不够理性等因素的干扰下,证券市场总是容易混乱且不可控,这时的市场渐渐出现投资者跟风模仿大部分投资人的投资行为,这种行为即为羊群行为。因此,本文利用Rstudio、Eviews10.0等统计软件来处理数据和建立模型,并从沪深300指数股票日线收益
学位
数学是思维的体操,数学素养是现代公民核心素质的重要组成部分。培养、发展学生的数学核心素养成为我们教师的神圣使命和重要责任,同时也是确保学生能够胜任未来职业发展和社会生活的核心竞争能力。笔者作为民和回族土族自治县一名高中教师,一直致力于培养学生的数学核心素养,希望通过科学、专业的测评项目,客观、全面、详实的分析民和地区学生数学核心素养现状水平,以期形成具体,有针对性的培养方法和策略,从而全面提升民和
学位
在目前人们对健康日益重视以及医疗资源相对紧缺这一背景下,多数医院门诊往往都处于一个相当拥挤的状况,这就导致日常的就医活动会耗费患者们大量的时间,尤其是在大型医技检查项目上往往会耗费数小时甚至数天的等待时间。如在三甲医院中,超声项目检查平均等候时间长达1小时,但患者实际就诊时间仅约几分钟,这就会使得患者等候时间远远大于服务时间,进一步导致患者就医满意度下降。所以,通过合理的实验与论证去寻找医院管理或
学位
近年来,国家发布了一系列加强“产教融合”推动职业教育的政策文件。“产教融合”培养模式,既有利于高职院校跨越式发展,又能不断提升企业的核心竞争力,更重要的是,在更大范围和更高层次上培养社会和企业急需的各类技能人才,从而有利于社会经济的发展。因此,“产教融合”是当前企业和职业院校必须面对的一项重大而迫切的任务。通过调查了解菏泽职业教育发展的现状及影响产教融合发展的因素,以菏泽家政职业学院、菏泽民生科技
期刊
近年来,不少基金管理公司和投资人都青睐于通过指数追踪进行投资。所以,如何构建一个合理的股票投资组合并使其拥有较小的追踪误差便成了研究指数追踪的焦点。本文获取了2021年2月19日至2021年4月26日上证50指数及其50只成分股的5分钟线的收盘价,共2206个样本数据,以此作为研究对象。考虑到分位数回归和模型平均的优点,本文采用基于分位数回归下的模型平均方法来构建指数追踪组合模型。本文对上证50指
学位
城市商业银行是我国经济体制从计划经济向社会主义市场经济转型时期的特殊产物。经过长时间的发展,已经是我们国家银行系统的重要组成部分。与大型国有银行和股份制商业银行相比,城市商业银行资本规模较小,发展时间短,收入来源相对更单一。当面临外部风险时,城市商业银行通常更容易陷入困境。在经济全球化的时代,随着我国金融体制的深化改革,城市商业银行面临的市场风险日渐复杂化。过去城市商业银行往往更加重视其所面临的信
学位
本文通过收集到的2016-2020年重庆市生态环境的相关数据,构建重庆市生态环境质量综合评价指标体系,分别采用层次分析法和熵值法—层次分析法对重庆市的生态环境质量进行评价,比较两种方法的优劣,根据更优的模型来分析重庆市生态环境的现状及存在问题,并提出具有理论和现实意义的相关建议。本文总共分为6个章节。第1章,首先,简单阐述了本文研究背景及意义。其次,对国内外的专家学者对生态环境质量研究现状进行归纳
学位
医院门诊量数据能够反映一个地区居民的健康状况以及医院的诊疗水平。利用科学、准确的预测方法来掌握医院门诊量动态趋势,有利于为医院管理者制定精细化管理方案提供依据。在中国,每年有大约30万人因乙型病毒型肝炎而丧失生命,可见该传染病已经严重影响了我国城乡居民的身心健康。因此,本文对重庆市某三甲综合医院乙肝门诊量统计数据进行研究,并预测其门诊量变化趋势,为后期乙肝科室门诊工作的开展提供有效的建议。本文先对
学位
重庆市在过去几十年的发展中,无论是在经济上还是在金融业上,都交出来满意的答卷。现如今,国际环境波谲云诡,国内也处在经济改革的重要阶段,又加上贸易战、新冠疫情等冲击,阐述重庆市的金融和经济历史规律和所处水平,研究两者相互作用的方向和形式,思索可能的解决办法,将有助于重庆市制定并实施更加有效的政策法规,推动重庆市金融、经济发展再上新台阶。本文首先梳理了国内外相关研究成果,现有的研究成果对于区域性的研究
学位
艾滋病的防治是一项意义重大的工作,我国党和政府一直以来都对艾滋病防治工作持高度重视的态度,如果能够对艾滋病的发病率进行准确的预测,就能够实现为艾滋病的预防和控制提供预警。本文提出了一种基于改进的神经网络模型的艾滋病发病率预测的方法,通过收集2004年1月-2021年12月的全国月度艾滋病发病率作为原始数据建立预测模型,以均方误差、均方根误差、平均绝对误差、平均绝对误差百分比四种评价指标作为选择依据
学位