论文部分内容阅读
随着互联网快速发展,社交媒体已经成为人们日常生活中必不可少的一部分。而在这些社交媒体中微博以其操作方便、信息传播快、实时分享等特点已渐渐成为网络营销的首选社交媒体。目前基于微博的网络营销还停留在传统的广告营销方式上,以企业推广为中心,注重广告任务完成的量,忽略广告任务完成的质,严重影响了企业的营销效果。为了解决上述问题,微博精准营销旨在以用户为核心通过对营销任务和微博用户的微博数据进行分析,选定合适的微博用户作为传播员推广任务,并采用赏金激励制度回馈帮助推广的用户,通过此种方式为有需求的用户提供精准的推广服务,提高企业的营销效果。然而由于新浪微博的信息发布门栏低、平台管理松散,大量对分析任务不产生作用的“无效”数据充斥其中,使得基于微博数据的分析任务的准确度降低。因此如何将这些“无效”数据去除,留下“有效”的数据用于分析是一个关键问题。针对微博数据中的主要组成部分博文,为了去除博文中的广告博文,论文首先构建文本特征向量和人工定义的特征向量,使用堆叠降噪自编码机对这两种特征向量进行处理,获得处理后的两种特征向量,将这两种特征向量进行组合得到第三种特征向量。将这三种特征向量用于最大熵分类模型的训练,依据实验结果找出分类效果最好的模型,使用该模型对博文进行处理去除其中的广告博文,实验证明得到的最大熵分类模型的P、R、F可达到65.58%、87.9%、75.12%,能有效识别绝大多数的广告博文。针对微博数据中的另一重要组成部分评论,为了解决先前的评论识别方法在参照物选取和个体差异性考虑上的不足。论文首先定量分析,对每一个博主分别构建模型,以博主回复的评论作为博主关注评论的参照物,提出基于最大熵的评论识别方法,首先通过爬虫和词向量抽取特征,对抽取的特征使用基于Wrapper的方式进行特征选择,依据特征选择的结果,采用监督学习的方式训练分类模型并用测试数据验证所提模型的有效性。实验表明,论文所提模型对于不同的博主具有广泛适用性,评论分类的平均准确率、召回率和F值可达到66.64%、86.33%、75.2%。最后基于上述理论设计并实现了微博精准营销平台中的数据预处理模块即博文去噪及评论识别子系统,帮助平台做出更为准确的分析结果。