论文部分内容阅读
大数据时代下数据是重要的资源,数据是构建预测模型的关键。计算机采集信息形成大规模数据,这些数据中蕴含着很多有用的价值,校园网的日志数据就是很有价值的数据。校园网通常使用Nginx部署反向代理服务器,记录了校内和校外用户访问校园网站的日志数据。反向代理服务器采集的日志数据包含用户IP、访问时间、请求的URL和HTTP协议、发送给用户主体文件内容的大小,从哪个页面链接访问过来,兼容性和浏览器信息等内容。深度学习成为人工智能领域近些年以来兴起的一个新领域,它可以看做是机器学习研究领域的一个新扩展,并且是对人工神经网络的延续发展,其目的在于构建多个处理层从海量数据中自动完成数据特征的学习。提取并学习数据特征成为构建预测模型的关键。本文将分析反向代理服务器中的日志数据,提取必要的日志数据特征,利用深度学习自动学习数据特征,构建校园网访问量预测模型。构建的预测模型实现预测不同地区访问校园网的数量,从而能够在推荐或者决策上体现数据的价值。主要的研究内容和研究成果总结如下:(1)数据预处理。对从Nginx部署的反向代理服务器中获取的日志数据按不同类别进行数据整理;数据清洗完成去除日志数据中无效信息;在有效的会话信息中进行数据选择,选择与数据分析相关的数据类别;数据处理完成IP地址的地区转换,最后将处理的日志数据特征统一数据格式并存储到数据库中。数据预处理完成了数据特征的获取,为后面完成模型训练提供数据集。(2)模型构建。处理好的日志数据作为数据样本,构建校园网访问量预测模型。利用深度学习中DBN(Deep Belief Network,深度置信网络)模型对数据进行预训练,并在DBN网络基础上添加回归层完成预测,构建基于DBN融合SVM(Support Vector Machine,支持向量机)的混合预测模型DBN_SVM,预测不同地区访问校园网的数量;然而深度学习中的LSTM网络在处理时序数据中具备很大优势,构建基于LSTM(Long Short Term Memory,长短时记忆)网络的校园网访问量预测模型,完成同样的预测任务。使用Nginx反向代理服务器采集的日志数据设计实验数据集,调整模型参数,分别使预测效果达到最佳。在相同的日志数据集下,实验对比构造的两个预测模型,基于LSTM网络的校园网访问量预测模型有较好的预测效果。(3)模型应用。利用基于LSTM网络的预测模型实现在高考招生上的应用,预测出全国不同地区在特定时间段访问学校招生网站的数量,根据访问量差异计算出全国不同地区报考学校的意愿度。不同地区的报考意愿度会对高考招生名额分配产生影响,意愿度高的地区应该分配更多的名额。因此,计算出的报考意愿度能给学校在高考招生名额分配上提供推荐(建议),体现出预测模型在招生应用上具有一定的应用价值。