基于机器学习的短视频社交媒体用户活跃性研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:BlueHeart2010XP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展和计算机计算性能的大幅度提高,人工智能正在将互联网技术推向一个全新的时代。在物联网技术的推动下,用户对数据的获取和共享提出了更大的需求,从而导致了数据量呈现爆发式增长。随着移动智能终端的普及,短视频社交媒体风靡全球,短视频社交媒体活跃用户的持续使用是其成功的充分必要条件,用户活跃性的预测对于后续的用户流失预警有着直接的指导作用。与传统的批量处理数据相比,用户活跃性预测所用到的数据以流数据的形式呈现,流数据的特点是对数据的处理有较高的实时性要求、数据的数学分布会随时间发生变化。由于本文实验所用数据集正负样本分布均衡,在综合考虑了准确率、召回率、F1、AUC等评估指标后,本文决定使用AUC值作为模型的评估标准。主要原因有两个,首先,AUC值与其它指标相比具有不受阈值划分影响的特点,能更客观地反映模型的性能;其次,与AUC值相对应的有ROC曲线,描绘出ROC曲线能使本文实验结果更具说服力。本文在构建用户活跃性预测框架时首先对本文实验所用数据进行了介绍。由于原始数据是不具备标签的,本文在对实验要解决的问题进行了定义的基础上,针对本文实验所用数据是与时间相关的数据,使用了滑动窗口来对数据进行划分,这种划分方式不仅能增加样本数量,也能通过窗口机制能遗忘窗口起始之前的数据,本文基于问题的定义和滑动窗口对原始数据赋予了标签。由于机器学习的广泛应用,针对数据可靠性的相关研究得到了研究人员的重视。本文在进行数据探索性分析时,通过可视化找出了存在的异常数据并进行了数据清洗,给出了实验论证。特征工程是从原始数据中提取特征并将其转换为适合机器学习模型的格式的行为。在进行特征工程时本文挖掘了数据内的特征,在获取特征后根据特征重要性和特征之间Pearson相关系数进行了特征挑选,得出了本文的特征挑选方式能大幅度地加快模型训练速度的结论。本文实验利用了LightGBM、支持向量机(SVM)、KNN、决策树、朴素贝叶斯五种机器学习算法在全特征条件下进行了实验对比,在AUC评估标准下单个模型的最优AUC对应的算法为LightGBM,达到了0.9158。模型融合是提高算法性能的重要手段,本文提出了一种基于网格搜索思想的模型融合算法。算法的基本思想是利用网格搜索的思想找到各个子模型加权融合时的权重。由于算法是基于网格搜索思想的,所以该算法适合应用于子模型数量较少的情况。针对本文实验所用到的五种机器学习子模型,算法计算出五种子模型的权重,利用得到的权重组合进行预测,最终融合后的AUC值达到了0.9377,与单个模型最优AUC值相比提高了2.4%。
其他文献
近年来,港口及船舶大气污染物排放逐渐成为沿海港口城市大气污染治理的重要组成部分,如何有效控制船舶大气污染物排放,改善空气质量,成为港口城市亟需解决的重大课题。在排放
历尽艰辛两代人,执着追求50年;学非报国枉为儒,竹不富民羞成业。——题记全球环保意识的加强、森林资源危机的加剧、1998年洪灾带来的迫在眉睫的生态危机,又一次把竹子推上了云南
城市医疗服务设施科学配置、合理布局,是保障城市健康发展和市民安居乐业的基础。然而,供需关系复杂多变、详实数据获取困难、评估模型普适性较低等诸多因素给布局均衡性评价
以未来12~36 h、36~60 h和60~84 h的暴雨预报为目标,利用2011年—2013年夏季6—8月欧洲细网格数值模式预报产品分析了江苏夏季暴雨的可能预报因子。通过对各因子进行相关性、
21世纪是海洋的世纪,自改革开放以来,我国经济的对外依存度不断提高,我国的经济利益的外部拓展得到不断地深化。2013年10月,习近平主席访问印尼期间发表演讲,提出“愿与东盟
目的探讨胸中上段食管癌淋巴结清扫的合理范围。方法回顾性分析2010年1月至2013年10月我院134例胸中上段食管癌淋巴结清扫患者的临床资料。将患者分为两组:三野组,56例,男50
在教学工作中如何提高教学效率成为研究的重点和难点,特别是针对钢琴的教学工作,存在技术复杂、教授困难等特点。教师单凭课堂上的讲解很难使学生充分学习,此外学生在课后的
随着中国经济由高速增长向高质量发展阶段的转化,作为经济活动重要参与者的企业,其高质量发展取决于多种因素的共同作用。在创新、资本、人才、制度、环境等多种因素中,人才
基于山西省转型跨越发展、推动名酒名醋产业升级的需要,分析了发展种植传统酿造业原料——酿造高粱的迫切性,且针对性提出发展酿造高粱、推进名酒名醋产业升级的建议:政府推动
到目前为止,软件定义网络已经发展有十余年了,在这期间出现了各种各样不同的控制器,例如有POX、Floodlight以及PNPL。一方面,通过控制器集中式的网络管理方式,网络管理员可以