论文部分内容阅读
随着互联网的迅速发展,社交网络信息预测成为信息内容管理的重要研究内容之一。此前的社交网络信息预测研究中,对社交网络中信息表示与量化计算研究不足,难以有效的支撑社交网络信息传播建模和预测的研究,同时,当前的社交网络信息传播模型,大都没有考虑信息传播过程中的记忆效应对信息传播的影响或者考虑不全面,导致预测结果与实际值之间存在较大误差。首先,利用朴素贝叶斯文本分类算法将采集到的微博文本划分为十五个领域,对用户发布微博数、微博平均被点赞数、用户注册时间等影响到用户影响力的指标,建立一套科学、合理的指标体系,利用专家打分法、层次分析法(Analytic Hierarchy Process)法等对各级指标赋予权重,量化分析用户各个领域影响力和综合影响力。接着,针对社交网络信息热度进行预测,考虑信息传播过程中用户记忆效应的兴趣累积和实效衰减两方面,利用遗传算法求出记忆曲线,分析用户的记忆效应对社交网络信息传播的影响。同时,获取社交网络主页或用户中的强弱连接用户,分析弱连接用户与信息传播的关系,进而得到弱连接用户对社交网络信息传播范围的影响。最后,对信息传播的范围、趋势和速度等进行定量分析,揭示用户特征、内容相关性等对社交网络用户行为的影响。从特定主贴、话题两个层次来分析,通过提取用户各个领域影响力、弱连接、记忆效应、主贴评论数、主贴点赞数、主贴转发数等多维特征,采用机器学习方法GBDT(Gradient Boosting Decision Tree)建立预测模型,对社交网络信息传播热度进行预测,得到信息传播的范围和热度变化趋势。在实验中,根据单一变量原则,比较了不同特征对社交网络信息热度预测的影响。实验结果表明,除了热度值低于10的主贴外,综合考虑用户影响力、弱连接、记忆效应、转发数、点赞数、评论数等特征,能够得到准确率较高的预测结果,平均绝对百分误差值MAPE(Mean Absolute Percent Error)远低于30。