论文部分内容阅读
随着Feed流产品的不断更新,以及拥有千万级别的用户量,可以成为公司的业务部门向外推广自己的产品,策略部门进行小流量实验,推荐部门进行优化算法的绝佳的平台。每个部门都会在Feed流日志中加入自己的日志,来进行跟踪,检测自己的产品,算法究竟符不符合大众的要求,通过统计点击,展现量,时长等关键性指标来不断的优化自己的产品、算法。由于越来越多的部门进入Feed流,加之每个部门都有自己的日志规范,导致其日志的格式变得越来越复杂,而且还会出现日有覆盖别部门的日志字段的情况。因为数据格式的复杂,导致在解析日志字段的时候会相当的耗时。往往一些简单的需求,由于解析的耗时,导致完成时间的延后,而且产出的结果也不容易进行验证,代码的维护性也是很差的。当日志没有按照规范来开发,或者日志内容被别的业务线覆盖的时候,没有一个统一的数据监控平台来监测,报警并将情况第一时间反馈给相关人员进行补救。每天要查看的数据也没有统一的报表平台,以及查询平台。在数据方面,由于公司不同业务线都是存放在一张大表中,而且只有一个分区来区分,所以首要任务是先剥离自己需要的日志,然后再解析,转换字段,根据ods,dwd,dws,ads层来构建数据仓库,将日志进行分散,按照主题进行存放,即方便了后续的业务开发,也扩展了整体业务的灵活性,以及减少了彼此之间的耦合度。在业务开发方面,构建集数据可视化,数据查询,数据监控功能于一体的系统,开发框架为js+html+springmvc+mybatis,少量的数据存储在mysql中,大量的数据存放在分布式列式存储中。目前,数据仓库的建立提高了解决需求的效率,确保了数据产出的准确性。可配置的报表也已经开始投入使用,可以轻松完成报表的制作,减少了重复的开发。数据查询页面实现快速查询的功能,提高了工作效率。数据监控页面,能够监控到异常指标,节约人力成本。