微博精准营销中博文去噪及评论识别方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:a715362633
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网快速发展,社交媒体已经成为人们日常生活中必不可少的一部分。而在这些社交媒体中微博以其操作方便、信息传播快、实时分享等特点已渐渐成为网络营销的首选社交媒体。目前基于微博的网络营销还停留在传统的广告营销方式上,以企业推广为中心,注重广告任务完成的量,忽略广告任务完成的质,严重影响了企业的营销效果。为了解决上述问题,微博精准营销旨在以用户为核心通过对营销任务和微博用户的微博数据进行分析,选定合适的微博用户作为传播员推广任务,并采用赏金激励制度回馈帮助推广的用户,通过此种方式为有需求的用户提供精准的推广服务,提高企业的营销效果。然而由于新浪微博的信息发布门栏低、平台管理松散,大量对分析任务不产生作用的“无效”数据充斥其中,使得基于微博数据的分析任务的准确度降低。因此如何将这些“无效”数据去除,留下“有效”的数据用于分析是一个关键问题。针对微博数据中的主要组成部分博文,为了去除博文中的广告博文,论文首先构建文本特征向量和人工定义的特征向量,使用堆叠降噪自编码机对这两种特征向量进行处理,获得处理后的两种特征向量,将这两种特征向量进行组合得到第三种特征向量。将这三种特征向量用于最大熵分类模型的训练,依据实验结果找出分类效果最好的模型,使用该模型对博文进行处理去除其中的广告博文,实验证明得到的最大熵分类模型的P、R、F可达到65.58%、87.9%、75.12%,能有效识别绝大多数的广告博文。针对微博数据中的另一重要组成部分评论,为了解决先前的评论识别方法在参照物选取和个体差异性考虑上的不足。论文首先定量分析,对每一个博主分别构建模型,以博主回复的评论作为博主关注评论的参照物,提出基于最大熵的评论识别方法,首先通过爬虫和词向量抽取特征,对抽取的特征使用基于Wrapper的方式进行特征选择,依据特征选择的结果,采用监督学习的方式训练分类模型并用测试数据验证所提模型的有效性。实验表明,论文所提模型对于不同的博主具有广泛适用性,评论分类的平均准确率、召回率和F值可达到66.64%、86.33%、75.2%。最后基于上述理论设计并实现了微博精准营销平台中的数据预处理模块即博文去噪及评论识别子系统,帮助平台做出更为准确的分析结果。
其他文献
现代企业对于管理会计的作用越来越明显,尽管管理会计在我国有了很大发展,但是它在我国的发展起步比较晚,在实际的企业管理中的应用上依然存在着许多问题。而这些问题不解决,
2008年次贷危机为我国商业银行对外投资提供了历史机遇,"一带一路"倡议的提出进一步推进了我国银行业的对外投资进程。中国——东盟自由贸易区的启动很大程度上促进了区域对
随着现代信息技术的迅速发展,英语教学已从单一的模态进入多模态环境中。以多模态话语分析理论为基础,结合大学英语教学现状,从教学情境的创建、教学模态的选择、教学材料的
当今社会,由于中风、外伤等原因导致手功能受损的情形已屡见不鲜。传统的康复治疗手段是医护人员手动辅助患者完成训练动作,此方法弊端是患者的治疗非常依赖医疗资源。利用外
自国家实施“一带一路”和“西部大开发”战略以来,我国西部地区的高速公路和国道主干线得到了快速发展。越来越多的特长隧道在云贵、青藏等高海拔地区上马。而高海拔地区的隧道除了存在塌方、涌水等典型风险,还具有高海拔地区独有的高原缺氧、地质复杂和冻土等恶劣的自然环境和不良地质因素,使其发生风险的概率和后果倍增。而目前对高海拔特长隧道工程的风险研究起步才刚刚起步,加之从业人员的风险意识不强,流程不规范,方法不
对于初中阶段和高中阶段的英语课程来说,虽然两者之间具有一致的目标,但是就教学方法、教学内容等各个方面,都具有明显的差异,如果想学生的升学的过程中很好的融合前后知识的
线性码的深度谱和深度分布是研究线性码自身结构的两个重要参数,研究线性码的深度特征有助于我们更好地了解线性码的结构特点,更好地利用线性码来纠正信息传输中的错误,同时
随着环保要求的提高,脱除芳烃、硫和氮等杂质,无臭、无毒的脱芳烃溶剂油的市场需求不断扩大。介绍了国内外脱芳烃溶剂油的产品现状和用途,详述了国内几种脱芳烃溶剂油的加氢
<正>德意志银行认为,在目前特朗普上任初期,市场倾向于观望。未来驱动美元兑日元的关键因素将是外国投机者的动向。随着美国利率的上升,美元/日元的汇价也将随之上涨。摩根大
期刊
为了研究微网系统的动态特性,暂态建模和仿真是非常必要的。微网系统的暂态建模不仅要对微网中的各类分布式电源、储能以及控制器进行建模,还能够精确的模拟电力电子开关器件