论文部分内容阅读
伴随移动互联网技术的飞速发展,移动应用的用户数量也呈现指数状态的增加,移动互联网用户在使用产品的过程中越来越追求个性化,很多公司都致力于定向投放的研究。个性化理论的实质就是根据用户的兴趣和偏好,对信息资源进行筛选整合,向用户提供符合其兴趣偏好服务。要想实现用户个性化服务,核心就是兴趣发现。移动用户在使用应用的过程中生成许多数据,这些数据大多都具有深层挖掘的价值,传统的用户兴趣分析就显得特别单薄,已经无法支撑起日益隐晦的兴趣发现。基于web的兴趣挖掘已经相对成熟,但对于移动互联网用户兴趣挖掘的研究还未引起关注,在这种背景下,本文通过分析目前兴趣发现的研究方法和国内外已有的相关数据分析平台,结合移动产品的现状,提出基于交互的移动用户兴趣发现系统的设计与实现。本文首先通过类比web端数据挖掘的一般方法确立本系统的研究方法,然后对解决问题的关键技术和方法进行优选,在兴趣发现的实现上,本系统将用户的交互行为划分为五类:对用户点赞、转发、阅读、评论过的资讯内容选用改进的TF-IDF算法来获取兴趣关键词,对关注类型的交互采用统计分析的方法来获取用户的兴趣关键词,然后分别对两组关键词建立关系图,采用TextRank算法来获取用户的兴趣集,最后使用调和因子对两种方式获取的兴趣集进行融合,最终获取用户的兴趣。本研究最后通过一个真实的移动端feed流产品作为实验对象,来验证系统兴趣发现算法的准确性,从而证明本系统的研究具有一定的应用价值。除了兴趣发现,系统还实现了用户分析、流量统计、渠道分析、留存分析以及转化分析等一些基础的统计分析模块,力求为系统的用户提供一个以兴趣发现为核心,功能全面的的数据服务平台。本系统前端使用React框架,AntDeaign组件,ES6语言进行开发,后台使用的是基于Python语言的Django框架;接口采用RESTful风格进行设计;使用Nginx进行正反向代理和负载均衡;移动端使用SDK埋点的方式采集数据,日志收集服务器采用基于Zookeeper的生产者消费者机制阻塞队列实现数据的缓存,有效缓解数据峰值,避免数据采集流的阻塞,造成数据丢失;使用Mongo集群防止某个数据库宕机导致的数据丢失;通过ETL将Mongo数据库中非结构化的数据转化为结构化的数据加载到数据库中。