论文部分内容阅读
随着Internet蓬勃发展,社交平台的数据不断增长,用户从海量数据中获取信息的难度不断地增加。研究微博用户行为成为当今热点话题。用户行为和内容复杂多样。一般用户微博行为数量较低且行为呈现整体一致性,用户组织语言和表达方式不同且关注范围不一致。不少微博行为研究未能挖掘利用用户数据及背后隐藏的相关信息,预测精准率有待提高,提高预测微博行为准确率以及全面利用博文信息是当前研究热点。研究发现微博数据有如下特点:大多数用户行为数量为零,部分用户行为数量不全为零;用户的行为数量整体呈幂律分布,每个用户行为数量大致遵循聚类性。传统的朴素贝叶斯和逻辑回归算法未考虑词语间的关联,利用所有用户特征词信息求取结果时,忽略单个用户的博文特点,未考虑特征词一义多词,用户习惯用语等情况。针对微博内容及其转发、评论及点赞三种行为次数,分析微博的总体特征,提出了改进的朴素贝叶斯和改进的逻辑回归行为预测算法。采用jieba进行分词,基于TF*IDF求取微博关键词,利用LSI算法统计出微博中的一义多词,得到用户的高频特征词;采用LDA算法对微博进行分类,得到类别集合。构建对象的层次结构可作为改进的朴素贝叶斯算法和逻辑回归模型预测因子,该层次结构主要包括用户及其行为均值、普通属性、关键属性。对测试集微博的特征词进行情感标记,积极或者消极的特征词易受关注,结合预测因子,预测用户行为数值。实验结果表明,改进的朴素贝叶斯和改进的逻辑回归算法具有较好预测效果。