基于MongoDB的分布式日志分析系统的设计

被引量 : 1次 | 上传用户:hccstarttttt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MongoDB是目前IT行业非常流行的一种非关系型数据库(NoSql),其无模式的数据存储方式,丰富的语言查询功能,支持高性能、且易扩展等功能,让其备受青睐。广泛应用于需要频繁读取操作的分布式系统中作为数据的存储仓库。本文依据MongoDB的这些优势,并结合视频网站对日志分析的特殊需求,展开了针对视频网站日志分析系统的研究。通过该研究可以帮助视频网站在提供优质视频内容的同时,为用户提供更好的服务,识别用户的意图,调整页面结构,提高用户体验,更好的满足用户需求,为用户提供有针对性的服务,才能带来更多的经济价值。本文设计了一套能够对视频网站海量日志数据进行高效率分析的系统设计方案,解决了传统的单点、单类类型服务器对现有日志分析工作的不足,旨在通过对日志数据进行有效的数据挖掘,发掘隐藏在日志数据中的用户访问规律和模式,为优化网站结构和经营模式提供有用的信息。本文基于视频网站业务的功能确定了日志分析系统的实际需求;针对该需求,设计了一套针对海量日志的分析系统,该系统分为三个子系统:日志采集子系统、日志分析子系统以及业务分析子系统。日志采集子系统,完成原始日志数据的采集及预处理操作,存入MongoDB数据库中。日志分析子系统,将存储在MongoDB中的日志提取出来进行数据清洗、用户识别、会话识别和补充路径等预处理后,生成中间数据,为业务分析子系统提供数据。业务分析子系统,对生产的中间日志数据进行二次分组与聚合,根据业务需求进行分类,进一步抽取其中的信息再统计出访问用户数,最后聚合出以日、周、月为单位的数据,将最终生成的结果以文件的形式存储或者存入数据库。在系统的实现技术上,日志采集和日志分析子系统充分利用了分布式系统架构在处理海量数据方面的优势,将海量的原始日志及预处理结果存储于MongoDB数据库中。通过Velocity模板引擎设计模板,将MongoDB中的文档进行清洗、过滤,转换为DBObject类型的对象,为MapReduce操作提供数据。基于MapReduce编程框架,利用其高效的并行处理机制,建立不同的Map和Reduce函数计算程序集来实现数据的统计处理。最后,从系统的稳定性和数据的读写效率及系统的吞吐量进行了相关的测试。从商用效果来看,通过本系统根据不同的业务需求及时统计用户的行为信息,为决策发展提供了有效依据。
其他文献
对马克思主义大众化传播应展开多维度的思考。话语体系的建构事关马克思主义大众化整体进程的发展。在话语体系的建构过程中,理论对现实的有力阐释是基础,政治话语与学术话语
民间融资是在取缔、禁止和改革试点的过程中不断成长起来的,尽管民间融资在发展过程中带来了高利贷、非法集资、洗钱、"跑路"等社会问题,但理性反思民间融资,其也有存在的理
思想政治教育作为特殊的文化实践形式和意识形态活动,是社会精神文化生产的重要方式。在中央提出深化文化体制改革、推动社会主义文化大发展大繁荣的背景下,对思想政治教育的
<正> 直至目前,关于副词级的范畴在维吾尔语的研究中和《现代维吾尔语》一书中基本上没有提及到,或者未明确其范畴。实际上,副词也如同形容词级的范畴一样具有级的范畴。下面
压力管道包括工业管道、公用管道和长输管道。主要输送介质为原油、成品油、液化天然气(LNG)和煤层气等化工流体。国际上将压力管道运输与公路、铁路、航空和水运并列为五大
BOT融资模式是一种国际通行的融资方式,近年来在我国污水处理、垃圾处理、桥梁等城市基础设施领域得到了广泛应用。由于特许经营协议中对项目收费方式和金额约定不一,对于BOT
<正>出纳人员在现金、票据的收支等管理中,要保证自己经手的现金、票据的安全和完整,要填制和审核诸多原始凭证,他们一般工作在经济活动的第一线,往往承担着巨大的责任,因此
随着国内经济的快速发展,科学技术的不断进步,国家和社会的视角逐渐聚焦在会计核算方面,然而由于国家会计核算行业发展史较晚,核算经验较少,导致国内各大企业会计核算形式化
目的观察清金畅肺饮治疗慢性阻塞性肺疾病(COPD)急性加重期患者的临床疗效。方法采用随机对照方法将83例慢性阻塞性肺疾病患者随机分为治疗组42例和对照组41例,治疗组西医常