论文部分内容阅读
随着移动互联网的快速发展,针对不同的用户需求,越来越多的移动应用也应运而生。相继一款移动应用的用户量也越来越大,每天产生了大量的用户行为和相应的产品日志,这些用户行为和日志就可以用来分析用户的一些共有行为,通过这些分析的数据可以判断出用户的需求是什么。在这种以需求为主的互联网思维下,将获得的用户数据进行统计和分析,来完善产品,让更多用户接受和使用,为项目经理在提出项目需求时给予数据支撑。本论文所论述的是通过对移动应用产品线上日志的统计和分析,将一些比较零散的用户行为日志,量化为数字进行统计,再将这些数字串连成用户行为轨迹,通过对大量用户行为轨迹的统计,会大体统计出几种用户行为非常相近的聚类,再根据这些聚类的主要特征分析出产品各个功能用户的使用程度,最后再将这些统计和分析出的数据建立一个平台进行展现。本文根据线上真实的用户日志,用python,js,php语言,以Linux为开发和运行环境。整个项目分为日志处理和数据展现模块两大部分。日志处理包括日志获取和日志分析,其中日志分析包括url防作弊的设计与实现和根据日志运用聚类进行用户行为分析。url防作弊的设计的主要目的是对项目中产生的外链做过滤的过程,通过人工标注的关键词和线上日志产生的外链url进行比对,将认为作弊的url过滤掉,相当于对线上日志的一层过滤网,将要分析的线上日志中认为干扰分析的内容剔除掉,主要用在搜索功能的日志。线上大量的用户日志,采用一种针对于聚类操作的改进的K-means算法,小环境无监督聚类算法(UNC),在此算法基础上又根据层次结构提出了L-UNC(Level Unsupervised Niche Clustering)算法。运用这个算法分析出线上用户的数据,将不同的用户行为进行归类,挖掘出用户的喜好,使用习惯,对产品粘性等指标,得出用户行为的分析结果。数据展现模块部分是将在整个用户行为分析过程中的数据及结论分别通过设计实现的展现模块中的统计端和分析端进行展现,用户行为数据展现平台是将对线上日志进行处理,分类,入库后,将数据根据需求进行展现。通过本论文的研究和项目的设计与实现将结果进行平台化的展现以及对产品迭代中给予用户需求最直接的反馈,实现了课题的研究目的和对产品新增功能提供数据支撑。