论文部分内容阅读
随着科技的飞速发展,人类已步入移动互联网时代。根据KPCB在2017年公布的数据,截止2016年底,国际互联网用户人数超过了34亿,普及率高达46%。以Facebook、Twitter、微信、新浪微博等为代表的在线社交网络平台用户数持续增长,用户数量巨大。对于用户个体而言,其在一段时间内发布于社交平台的个人状态,包括心情、评论、图片等信息无不带有浓烈的个人标签,通过对这些行为信息进行行为分析,往往能比较准确的绘一个人的工作领域、生活状态、个人喜好等特征,继而能比较合理的预测今后一段时间内该个体的关注点与可能发表的状态。如何能较好的进行基于社交网络的行为分析研究,并将其应用于实际,是近年来各大学、研究机构以及互联网公司的研究热点。本文以移动社交网络数据为重点,进行时序分析研究,取出个体行为特征,基于这些特征进行行为预测,探究个体行为特点。本文研究过程如下:第一步,选取符合国人用户习惯、用户基数大的新浪微博作为数据源。并设计高效的爬虫系统从新浪微博爬取大量的用户公开数据。第二步,由于社交网络用户数量巨大,我们不可能研究所有用户,所以本文基于社交网络的图属性,采用PageRank计算用户权值,根据该权值选取具有分析价值的目标用户。第三步,对爬取的大量微博文本数据进行处理,利用TF-IDF算法对分词后的文本数据进行处理,取关键词作为单一文本代表,并将文本划入相关领域便于分析统计。第四步,本文出基于Seq2Seq的微博主题概率预测模型。同时通过实际经验分析出用户发布微博行为与时间段相关的假设,并在此基础上出了基于Seq2Seq和时间段的微博主题概率预测模型。第五步,将本文出的模型与业界流行的预测模型进行实验对比。对于研究成果的呈现,本文首先是对爬取数据的部分统计信息的呈现。然后是对所选取的目标用户的特征的直观呈现。最后将本文出的基于Seq2Seq的微博主题概率预测模型及基于Seq2Seq和时间段的微博主题概率预测模型和业界流行的时序预测模型ARIMA模型和Holt-Winters模型机型对比。本文通过实验对比了不同模型的预测效果,结果显示本文出的模型在短期预测时效果要好于ARIMA模型和Holt-Winters模型,同时在些主题类型上,基于Seq2Seq和时间段的微博主题概率预测模型的效果升明显。这说明本文出的模型在对于微博主题的短期预测方面拥有相对于传统统计预测模型跟好的预测准确度,同时也证明的本文出的假设是成立的,并在特定主题类型上表现明显。该结果对于微博推广和营销等具有很好的参考意义。