基于改进朴素贝叶斯算法微博行为预测

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:jz1120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet蓬勃发展,社交平台的数据不断增长,用户从海量数据中获取信息的难度不断地增加。研究微博用户行为成为当今热点话题。用户行为和内容复杂多样。一般用户微博行为数量较低且行为呈现整体一致性,用户组织语言和表达方式不同且关注范围不一致。不少微博行为研究未能挖掘利用用户数据及背后隐藏的相关信息,预测精准率有待提高,提高预测微博行为准确率以及全面利用博文信息是当前研究热点。研究发现微博数据有如下特点:大多数用户行为数量为零,部分用户行为数量不全为零;用户的行为数量整体呈幂律分布,每个用户行为数量大致遵循聚类性。传统的朴素贝叶斯和逻辑回归算法未考虑词语间的关联,利用所有用户特征词信息求取结果时,忽略单个用户的博文特点,未考虑特征词一义多词,用户习惯用语等情况。针对微博内容及其转发、评论及点赞三种行为次数,分析微博的总体特征,提出了改进的朴素贝叶斯和改进的逻辑回归行为预测算法。采用jieba进行分词,基于TF*IDF求取微博关键词,利用LSI算法统计出微博中的一义多词,得到用户的高频特征词;采用LDA算法对微博进行分类,得到类别集合。构建对象的层次结构可作为改进的朴素贝叶斯算法和逻辑回归模型预测因子,该层次结构主要包括用户及其行为均值、普通属性、关键属性。对测试集微博的特征词进行情感标记,积极或者消极的特征词易受关注,结合预测因子,预测用户行为数值。实验结果表明,改进的朴素贝叶斯和改进的逻辑回归算法具有较好预测效果。
其他文献
随着R&D的全球化趋势,虚拟团队在跨国组织中被大量运用。在汽车电子行业中,虚拟团队模式给项目风险管理带来了新的挑战。本文通过分析虚拟团队的特点,阐述了此种模式的风险与
在对外汉语教学中,教学法占据非常重要的地位。选择合适的教学方法,对于增强课堂教学效果具有重要作用。任务型教学法起源于20世纪80年代,主张在具体的教学情境中,采用课堂交
近年来,人民币兑多种货币的汇率都不同程度出现升值现象。我国很多跨国企业在国外设有分公司,每年有大量外汇收入要兑换成人民币结算,人民币升值会给这些公司的境外分支机构的盈
螺旋给料机能够实现粉体物料的稳流输送、定量给料、精准控制等功能,适用于各种行业中粉体物料的连续计量及配料,采用多项先进技术,运行可靠,控制精度较高。自动包装生产线上
联翩而至的贺卡不断重复着同样的问候。所有的人对虎年都充满了殷切的期待。外国人恐怕永远无法理解中国生肖文化的玄妙!连丑陋无比、阴险狡诈的老鼠都能联想引发出美好吉利