论文部分内容阅读
随着内容运营行业的迅速崛起和微信公众平台的日趋普及,公众号不仅仅是传统媒介和新兴自媒体的舆论阵地,更发展为几乎所有企事业单位以及政府部门的营销和宣传窗口。于是,为广大公众号运营工作者服务的第三方平台应运而生。但由于微信生态圈相对封闭、选题构思工作的主观性强等原因,大多数现有平台的服务只停留于基础数据的采集和统计,却没有解决内容运营工作中整合资源低效、选题构思困难等核心问题。针对以上问题,本文利用文本分析技术,设计并实现了一个公众号内容运营辅助系统,主要提供了构思推荐和素材管理等功能,提高了运营工作的效率和质量。本系统主要包含数据采集、数据处理和系统管理三个模块。数据采集模块使用实时采集、定时采集等方法,对浏览记录、热门渠道和公众号等多种渠道的数据进行采集,扩大了选题的来源范围。数据处理模块采用文本聚类和启发词抽取相结合的方法,对不同来源的数据进行分析和处理。为了帮助运营人员选题构思,本文提出“启发词”的概念,并基于关键词抽取和新词发现等算法,设计出启发词抽取方法。文本聚类和启发词抽取两种技术相结合,可以得到不同维度的启发词,以辅助运营人员寻找新颖的写作切入点。系统管理模块通过整合数据处理结果并控制系统逻辑流程,为选题推荐等功能提供Web后台服务。本系统针对数据类型多样化的特点,基于MongoDB和Elasticsearch实现了系统的数据存储方案,充分发挥了前者的高效查询和后者的实时搜索等优势,有效地支撑了数据的采集和处理过程。本文设计并完成了特征选择、特征维数、特征模型和启发词抽取等多组对比实验,实验结果验证了本系统采用的文本分析方法的有效性。线上实践与用户反馈证明,本系统能够达到协助用户整合素材和选题构思的目的,具有较高的实用价值。目前,本系统稳定运行于某新媒体数据挖掘公司的线上项目中,表现良好。