论文部分内容阅读
随着互联网的不断发展和用户需求的不断提高,有关网络用户的行为分析和数据挖掘研究迅速发展起来。作为Web2.0技术的典型代表,网络论坛承担着传播信息和舆论导向的作用。因此,对论坛用户的兴趣建模和预测不仅有助于正确分析用户的兴趣所在,而且有助于向用户提供个性化服务。论坛帖子的热度预测对于提前掌握舆论动向具有重要意义。本文首先对常用的数据挖掘算法和用户兴趣模型进行简要介绍,然后对天涯论坛的用户数据集进行处理分析,设计了适合论坛的用户兴趣权重更新算法,并对用户兴趣进行有效预测,接下来分析了帖子热度的影响特征来对热门帖子进行预测。基于论坛访问时间间隔和发帖回帖数量的用户兴趣权重更新算法,建立在用户访问时间存在较大间隔的基础上,将用户的访问时间间隔和发帖回帖次数同时作为权重计算的重要变量;在兴趣预测方面,设计了一种两阶段的用户兴趣聚类算法。通过对论坛数据集进行仿真实验,验证了用户兴趣更新算法和推荐的有效性和准确性。论坛帖子热度受多方面因素的影响。根据网站用户的好友关系、关注关系、经验值等信息提取出用户性质和用户关系特征;帖子受众程度与其讨论内容有密切联系,因此帖子内容也是热度的重要影响因素;另外,帖子的发帖时间也会对其热度产生一定程度的影响。在分析帖子热度影响特征的基础上对帖子热度进行支持向量机回归,取得了满意的预测结果。最后,将用户兴趣建模和热帖预测相关算法应用到网络舆论分析中,设计了基于论坛的用户行为分析系统。系统分为数据获取、数据预处理、用户行为分析和数据存储模块,负责实现用户兴趣识别、上网时间统计、活跃用户发现、意见领袖发现和热帖预测等功能,并详细介绍了各个模块的设计,然后对系统的设计框架进行构建,作为未来系统实现的基础。论文的工作得到了国家自然科学基金(No.61172072,61271308)、北京市自然科学基金(No.4112045)、高等教育博士点基金(No.W11C100030)、北京科技计划(No.Z121100000312024)和北京市教育委员会学科建设与研究生建设项目等课题的支持。