论文部分内容阅读
得益于居民收入的持续提高,以服务业为主导的消费行业在中国越来越重要,旅游越来越成为人们日常生活中不可或缺的一部分。随着消费者多样化和非标准化的旅游服务需求的增多,消费者的行为逐渐变得难以预测。对消费者需求进行合理预测,分析挖掘消费者偏好、消费能力和购买行为规律,将对综合性在线旅行社(Online Travel Agency,OTA)向智能出行管家(Intelligence Travel Assistant,ITA)转变起到至关重要的作用。本文以OTA平台四万多名用户的基本信息、行为信息、订单信息和评论信息为数据挖掘对象,以构建预测用户在短期内是否会订购精品旅游服务的集成学习模型为目标。通过数据分析与特征工程,探讨从原始数据集中构造重要特征的方法,通过建模分析与对比分析,构建准确高效的精品旅游服务成单预测模型。本文首先在分析了国内外研究现状的基础上,介绍了LightGBM算法、CatBoost算法、随机森林(Random Forest,RF)算法和极端随机树(Extremely randomized Trees,ET)算法的原理及关键技术;其次,从数据来源、数据结构和统计分析三个方面对原始数据进行了详细的分析,其中统计分析包括:数据量分析、字段缺失分析、用户地区分析、操作类型分析、历史订单类型分析、评分分析和预测目标分析;然后,从数据预处理、特征构造、特征抽取和特征选择四个维度针对原始数据进行特征工程处理,在特征构造阶段提取了47个表征特征、860个行为特征、141个状态特征和21个利益特征,利用集成学习算法的特性计算得到了特征的综合重要度,并基于该特征重要度对特征进行了选择;然后,基于分割后的训练集和测试集,对比分析了以XGBoost、LightGBM、CatBoost、RF和ET算法构建的五个单模型的预测效果和效率,通过引入特征多样性和算法及算法参数多样性,构建并分析学习法和加权法两种组合策略下的混合模型,确定了以加权的方式对XGBoost、LightGBM和CatBoost三个基模型进行融合;最后,对比分析了单模型与混合模型的AUC值和训练预测总耗时。本文的研究结果表明,混合模型无论基于那种组合策略,其预测效果优于各单模型。在组合策略方面,学习法组合策略在预测效果上优于加权法,但其效率较低。就一种单模型而言,CatBoost算法效率虽然略低于其他算法,但其预测效果是最好的。基于加权法的集成学习混合模型,提高了精品旅游服务成单预测效果的同时,保证了预测效率在一个合理的范围内。