【摘 要】
:
随着互联网信息爆炸增长,越来越多的企业通过网络爬虫抓取所需数据并进行整合。内容汇聚子系统通过可定制爬虫实现对多个网络电台的数据抓取,为中国广播云平台提供数据服务。
论文部分内容阅读
随着互联网信息爆炸增长,越来越多的企业通过网络爬虫抓取所需数据并进行整合。内容汇聚子系统通过可定制爬虫实现对多个网络电台的数据抓取,为中国广播云平台提供数据服务。但可定制爬虫任务均以脚本形式运行且运行时间长,管理人员无法实时掌握不同爬虫的运行情况,难以进行统一管理。同时,当爬虫任务发生异常时管理人员需要人工查看日志进行分析,很难快速定位异常位置和原因,维护成本高。针对可定制爬虫任务在管理以及异常分析功能上的不足,本文提出了一种在内容汇聚子系统中使用的监控和异常分析模块,提供包括爬虫任务管理、监测、控制、异常警告和异常分析在内的五大功能。用户可以实时掌握不同爬虫任务的运行状态并进行统一管理控制;当爬虫任务发生重大异常时用户将会收到异常警告邮件,方便用户及时处理;当爬虫任务运行结束后,用户可以通过查看异常分析报表快速掌握运行情况,并快速定位异常原因和位置。为实现上述功能,将监控和异常分析模块划分为爬虫任务管理子模块、爬虫任务实时状态可视化子模块、爬虫任务控制子模块、爬虫异常警告子模块和爬虫异常分析子模块。首选设计了数据库集合结构以支持爬虫相关数据的存储,然后基于数据库集合的设计,在爬虫任务管理子模块中实现了爬虫任务的管理功能;在爬虫任务实时状态可视化子模块中基于WebSocket搭建双向通信链路,实现了爬虫任务运行状态的实时显示;在爬虫任务控制子模块中实现了爬虫任务的启停功能;在爬虫异常警告子模块中实现了爬虫任务的重大异常警告;在爬虫异常分析子模块中基于分析构建出的异常原因分类规则实现对爬虫任务运行产生的异常日志的异常原因分类匹配,完成了对可定制爬虫任务的异常原因与位置分析,生成报表展示给用户。在进行了需求分析与关键问题的探讨后,本文给出了监控和异常分析模块的详细设计与实现。本文针对各子模块设计了测试用例并进行了测试,测试结果证明符合要求,最后进行了全文总结。
其他文献
背景前列腺癌(Prostate cancer,PCa)是男性泌尿系最常见的恶性肿瘤之一。有资料表明,2012年PCa患者发病率在男性肿瘤中位居第二,死亡率位居第五[1]。如今,我国己经进入老龄化社
大豆胞囊线虫病(Heterodera glycines,SCN)为大豆根部的主要专性寄生线虫;是大豆生产中的重要病害,,严重影响大豆的产量。目前,对大豆胞囊线虫病的防治措施主要采取物理防治
同步碎石封层车在进行沥青和碎石同步洒布之前需要对道路、桥面表层进行检测,根据表面平整度,路面宽度控制沥青和碎石的喷洒量。目前采用的同步碎石封层技术常出现不能零起步
本研究以‘红地球’ב双优’和‘霞多丽’ב北冰红’的杂交组合后代群体为试材,采用室内离体叶片菌丝块接种法,对杂交后代进行灰霉病抗病性鉴定,结合已经构建的葡萄分子
目的:检测IgA肾病患者血清中巨噬细胞移动抑制因子(MIF)及转化生长因子-β(TGF-β)的表达,探讨利用血清MIF水平联合TGF-β水平评估IgA肾病肾脏病理损伤程度及其预后的可能性,
作为城市公共交通重要组成部分,出租车在方便人们出行及促进城市正常运行等方面起着重要作用。但是随着网约车的兴起,传统出现租车面临生存困境,一方面源于自身缺乏及时性、便捷性的优势;另一方面,政府定价的固定价格机制,无法与动态计价的网约车抗衡。2019年8月31日,交通运输部运输服务司相关负责人在巡游出租企业改革发展研讨会上指出,应加快巡游车行业改革,尽快推进巡游出租车动态运价调整,符合市场实际需求,以
近代以来,因对操作风险重视不足或运用其新理论、新技术不当等原因,导致企业及企业管理者遭受巨大损失和灾难的事件不断出现。在严峻现实面前,国内企业如何构建符合自身实际的操作风险控制和管理体系,促进企业持续发展,成为理论界、企业界、政府及相关部门共同关注的热点研究课题。当前,关于操作风险的研究不胜枚举,但通过梳理相关文献发现:研究内容主要局限于金融、投资和证券市场等相关领域,而针对其他类型企业或公司的操
根肿病是一种世界范围内的土传病害,由根肿菌侵染大白菜等十字花科植物所致。抗菌物质(phytoanticipins)是植物在受到微生物攻击之前,存在于植物中的一类具有抗菌活性的低分
葡萄霜霉病是由葡萄单轴霉属[Plasmopara viticola(Berk.et Curtis)Berl.et de Toni.]真菌侵染造成的多循环病害,在全国各葡萄产区传播,高温多湿是引起该病流行的主要因素。
3-MCPDEs(3-氯丙醇酯)和GEs(缩水甘油酯)是油脂加工过程中形成的两类危害因子,其水解产物会刺激并引发人体器官的癌变,关于3-MCPDEs和GEs的食用油安全问题是国内外油脂界关注