【摘 要】
:
在社交媒体高速发展的今天,网络上的社交文本形成了一个极具价值的文本库,尤其是对于美妆品牌而言,中国市场的美妆行业近几年正在急速扩张,其中新模式社媒营销起了很大的推动作用,比起其他行业,美妆行业是较早应用互联网技术进行社会化媒体营销的行业之一,因此社交文本成了该行业一个很重要的信息来源。本文旨在通过分析社交媒体平台中消费者关于美妆品牌的真实评价,提取合适的关键词进行情感分析、IPA分析及共现分析,使
论文部分内容阅读
在社交媒体高速发展的今天,网络上的社交文本形成了一个极具价值的文本库,尤其是对于美妆品牌而言,中国市场的美妆行业近几年正在急速扩张,其中新模式社媒营销起了很大的推动作用,比起其他行业,美妆行业是较早应用互联网技术进行社会化媒体营销的行业之一,因此社交文本成了该行业一个很重要的信息来源。本文旨在通过分析社交媒体平台中消费者关于美妆品牌的真实评价,提取合适的关键词进行情感分析、IPA分析及共现分析,使美妆品牌更加了解消费者当前的讨论热点,更加了解消费者的产品诉求,更加了解本品牌及竞争对手品牌的产品现状,从而确定产品改进的优先级以及改进的方向,为品牌的产品改进、研发、预算分配等提供建议。本文主要的创新点在于以下三个方面:(一)应用领域创新。目前对于美妆行业的分析绝大多数是定性分析,较少涉及定量分析,尤其是针对美妆行业社交平台的文本挖掘还处于空白阶段,若忽略应用领域特性盲套公式,可能会导致错误甚至荒谬的结论,本文将文本挖掘的技术运用于美妆行业,拓宽了文本挖掘技术的应用范围,同时为美妆行业的定量分析做出一定贡献;(二)多学科融合。本文在处理文本时结合了市场营销学以及管理学知识,通过市场营销学的知识以及行业实际操作经验得知,美妆品牌会通过多种渠道与社交平台上的意见领袖合作发文,来提高产品的热度与销量,此部分赞助文章会掺杂在收集到的文本中造成一定偏差,同时对普通消费者的购买、心理预期、评价等也会产生一定的干扰,本文创新性地提出一个说法“品牌方噪音”来代指上述两方面影响,为了消除这部分影响,本文进行了两步操作,一是在进行建模之前,针对不同社交平台的机制,尽可能地挑选出相应的特征区分赞助文章与用户自发文章,仅对用户自发文章进行建模,二是在建模过程中利用筛选出的赞助文章辅助去除残留影响。在本文模型最后采用了管理学中的重要性-绩效表现分析结合共现网络分析,给出产品改进的方向及建议;(三)模型创新。在关键词提取一步中,本文改进了TF-IDF模型,原始的TF-IDF模型在计算逆文档频率时并将所有的文本看成同等重要,忽略了社交平台上并非所有文章都是同等重要的特性。本文考虑了更能代表社媒文本重要性的指标:热度,并在此基础上消除平台、品牌方噪音的影响,得到一个能更真实反映内容热度的综合热度,然后用该指标去替代原始TF-IDF公式中的文件数量,得到一个反映消费者真实讨论热度的关键词集。其中,对于平台因素,本文考虑了各平台的月活跃用户量,对于品牌方噪音部分,本文创新性地以用户自发文章中的词为单位,计算包含该词的用户自发文章的热度均值,如果存在某天,包含该词的赞助文章热度均值超过用户自发文章的热度均值,则认为该天赞助文章对用户自发文章产生较大影响,一般是提升了用户自发文章的热度,则将该天包含该词并且热度高于均值的用户自发文章热度赋值为均值。基于上述预处理得到的文本集,本文建立了一套包含分词、关键词提取、情感分析、IPA分析、共现分析的模型来进行文本挖掘。本文选取了微信、微博、小红书三个平台2019年的雅诗兰黛品牌的文本数据进行分析,筛出赞助文章及分词之后,代入改进前后的TF-IDF模型、Text Rank模型以及LDA主题模型这四种关键词提取方法,通过有效准确率、有效召回率、有效测量值以及有效排名率这四个指标进行横向以及纵向对比发现,改进后的TF-IDF模型在去除杂音以及有效关键词的提取和排名提升方面都有一定的提高。然后将改进前后的TF-IDF得到的关键词集进行情感分析,包括基于情感字典、朴素贝叶斯、文本卷积神经网络三种方法,结合建模效果及效率,朴素贝叶斯模型在此文本集上表现最佳。最后对改进前后得到的关键词以及满意度进行IPA分析,对比可得,改进后的TF-IDF可以使后续的分析更为清晰、更加符合行业认知,有一定的提升效果,并基于改进后TF-IDF的IPA分析结果得到产品改进优先顺序,对优先级较高的产品进行产品之间以及产品与形容词之间的共现网络分析,得到消费者的产品诉求,从而给出一些对应的产品改进建议。最后本文客观地总结和分析了此篇论文存在的一些不足与展望,对之后的TF-IDF的改进以及美妆行业社交媒体方面的文本挖掘有一定的参考价值。
其他文献
在2019年12月20日,黄金期权正式在上期所上市,这是中国衍生品市场进一步发展的重要标志。期权以期货为基础,是一种新的金融衍生产品,具有独特的投资功能和风险管理价值。在2015年2月,中国期权市场推出了第一只期权——上证50ETF期权,相较于海外市场发展较晚。但随着期权制度建设的日益完善,期权市场的涉及范围与国内外影响力日益提高,国内对于期权的需求也日益扩大。自2017年3月起,国内陆续推出了豆
随着人工智能技术的逐步发展,以及围绕图像的深度学习体系的不断完善,深度学习在图像分类领域中愈发发挥着无法替代的角色,其应用范围更加广泛,过往的难题也更易解决。依托过去的技术,实现光伏行业中光伏电池片的缺陷自动分类极为困难,现借助深度学习中的卷积神经网络算法,该难题有望实现落地。光伏电池片的缺陷分类是对电致发光原理下的光伏电池片图片进行分类,卷积神经网络算法能够深度挖掘图像特征,分析以及学习。通过实
随着互联网技术的飞速发展,互联网金融对于传统金融市场的冲击也越来越猛烈,传统金融机构在产品营销方面面临的压力也是与日俱增,如何进行个性化营销成了亟需解决的问题。目前针对个性化推荐,金融机构使用的模型方法还较为简单,较传统营销方式效果提升不明显,故本文基于金融业务,提出了一套推荐方法,该方法能够很好地捕捉到用户的真实喜好,从而做到个性化推荐。它通过利用用户的历史购买记录,生成金融理财产品的向量表示与
大数据时代,随着技术手段不断进步,海量数据不断涌现。分子生物信息学领域的微阵列数据,网络购物的用户行为和交易数据,信息化金融市场的交易数据等等,这些庞大的高维数据给传统分析的低维数据数据分析方法提出了挑战,也推动了多重假设检验理论的应用和发展。随着生活水平的提高,人类寿命不断延长,癌症已经成为危害人类健康的头号敌人。而多数癌症患者早期大多性状不明显,且同一类癌症往往性状表现也不尽相同,如何从分子水
随着长三角一体化发展上升为国家战略,党和国家对长三角区域产业协同发展提出了更高的要求,这对长三角三省一市而言既是一次难得的机遇,同时又面临着前所未有的挑战。长三角地区如何立足自身资源禀赋,形成区域产业分工协作、优势互补的发展格局,打造我国强劲活跃增长极,引领全国高质量发展,成为了一项极具现实意义的时代课题。鉴于此,本文尝试从区域间产业关联的视角,通过编制长三角地区间投入产出表,对长三角地区间的产业
疫情之下,全球金融市场进入大波动时代,各国金融调控政策、突发事件层出不穷,例如美联储无限量QE、欧央行7500亿复苏基金、中美关闭使领馆、阿塞拜疆和亚美尼亚爆发空战...如何智能监控全球舆情,从而最快速地做出反应、最大可能地规避风险,就成了一项特别重要的工作。自然语言处理技术作为一种新兴技术,在发展过程中,便于金融产生了联系。在《全球金融科技权威指南》一书中提到了Econob公司,这家做自然语言处
一个准确的电力负荷供应决策对于电力系统来说至关重要,而其中最为关键的就是对电力负荷的预测。而电力负荷日峰值的预测是其中一个重要指标。在目前的研究中,研究者们往往侧重于提高电力负荷整体的预测精度,而预测的稳健性一直被他们所忽视。在建立模型的过程中,我们往往会利用模型选择法来选择某一“最优”模型作为后续预测的模型,而人们却忽视了模型选择过程中的不确定性。模型平均则是用来解决以上问题的一个有效办法。它避
基于深度学习的、与年龄相关的人脸图像分析已经成为计算机视觉领域的一个重要研究内容,在众多深度神经网络模型中,生成对抗网络是最具魅力的模型之一,它强大的生成能力让我们可以完成许多有趣的事情,例如图像风格迁移、文本到图像的合成、图像超分辨率、人脸衰老图像生成、图像修复等。人脸图像衰老合成作为一个应用范围非常广泛的研究方向,包括追捕通缉犯、寻找走失儿童、自动升级职员数据库、提高人脸识别系统的鲁棒性以及科
近年来,随着全球性的经济发展以及世界各地区的经济增速和动能的衰弱,以及全球性的债务水平的升高以及金融市场的局部动乱等一系列问题的日益加剧,资本直接进行的投资活动也略显较为低迷。尤其是2020年新冠病毒疫情爆发以来,美国、欧洲和其它许多国家政府不尽如人意的处理,导致投资者对经济发展形势进一步看衰,全世界范围内的经济十分不稳定。在此背景下,黄金和许多其它虚拟货币的价格均出现了较大幅度的上涨,加剧了相关
线性双自回归模型(Linear double autoregressive(DAR)models,LDAR)可以用来很好地拟合厚尾数据,它的条件均值和条件标准差部分均采用了线性结构,其模型结构使其更加具有稳健性。目前,线性双自回归模型已有的估计方法是由Zhu et al.(2018)提出的双加权分位数回归估计(DWQRE),最优DWQRE估计量的渐近方差在特定的条件下可以达到CR下界,该估计量的渐