论文部分内容阅读
随着互联网技术的高速发展和计算机计算性能的大幅度提高,人工智能正在将互联网技术推向一个全新的时代。在物联网技术的推动下,用户对数据的获取和共享提出了更大的需求,从而导致了数据量呈现爆发式增长。随着移动智能终端的普及,短视频社交媒体风靡全球,短视频社交媒体活跃用户的持续使用是其成功的充分必要条件,用户活跃性的预测对于后续的用户流失预警有着直接的指导作用。与传统的批量处理数据相比,用户活跃性预测所用到的数据以流数据的形式呈现,流数据的特点是对数据的处理有较高的实时性要求、数据的数学分布会随时间发生变化。由于本文实验所用数据集正负样本分布均衡,在综合考虑了准确率、召回率、F1、AUC等评估指标后,本文决定使用AUC值作为模型的评估标准。主要原因有两个,首先,AUC值与其它指标相比具有不受阈值划分影响的特点,能更客观地反映模型的性能;其次,与AUC值相对应的有ROC曲线,描绘出ROC曲线能使本文实验结果更具说服力。本文在构建用户活跃性预测框架时首先对本文实验所用数据进行了介绍。由于原始数据是不具备标签的,本文在对实验要解决的问题进行了定义的基础上,针对本文实验所用数据是与时间相关的数据,使用了滑动窗口来对数据进行划分,这种划分方式不仅能增加样本数量,也能通过窗口机制能遗忘窗口起始之前的数据,本文基于问题的定义和滑动窗口对原始数据赋予了标签。由于机器学习的广泛应用,针对数据可靠性的相关研究得到了研究人员的重视。本文在进行数据探索性分析时,通过可视化找出了存在的异常数据并进行了数据清洗,给出了实验论证。特征工程是从原始数据中提取特征并将其转换为适合机器学习模型的格式的行为。在进行特征工程时本文挖掘了数据内的特征,在获取特征后根据特征重要性和特征之间Pearson相关系数进行了特征挑选,得出了本文的特征挑选方式能大幅度地加快模型训练速度的结论。本文实验利用了LightGBM、支持向量机(SVM)、KNN、决策树、朴素贝叶斯五种机器学习算法在全特征条件下进行了实验对比,在AUC评估标准下单个模型的最优AUC对应的算法为LightGBM,达到了0.9158。模型融合是提高算法性能的重要手段,本文提出了一种基于网格搜索思想的模型融合算法。算法的基本思想是利用网格搜索的思想找到各个子模型加权融合时的权重。由于算法是基于网格搜索思想的,所以该算法适合应用于子模型数量较少的情况。针对本文实验所用到的五种机器学习子模型,算法计算出五种子模型的权重,利用得到的权重组合进行预测,最终融合后的AUC值达到了0.9377,与单个模型最优AUC值相比提高了2.4%。