论文部分内容阅读
随着广播电视尤其是交互式网络电视(IPTV)的普及,给人们带来更好的收视效果和更丰富的娱乐节目。与此同时,伴随而来的商业广告日益泛滥,严重影响了观众的视听体验。特别是近年来广告数量呈爆炸性增长,传统的人工审核方式已无法完成海量广告的筛选工作,如何利用科技手段完成不良/非法广告的在线检测,成为了相关部门亟待解决的问题。本课题源于国家863计划《三网融合演进技术与系统研究》,该项目在突破了细粒度视频数据特征分析等关键技术的基础上,形成了面向视频广告检测的示范应用系统。然而,随着视频广告数量的急剧增加,现有采用集中式软件计算架构和串行计算处理模式的系统,已无法满足视频广告检测的实时性要求。本课题针对现有系统存在的实时性不够的问题,从系统软件计算架构角度出发,在分析研究现有典型批处理与流处理两种分布式系统的基础上,探索适合海量数据处理的新型计算架构,主要创新点如下:(1)由于系统核心算法采用串行计算模式,且广告数量急剧扩张,导致现有系统实时性已无法满足实际应用的需求。本文在深入分析影响广告检测系统实时性因素的基础上,提出采用新型计算处理架构的改进思路,使该架构具有数据结构改动小,并行处理能力强,系统响应时间少等特点。(2)研究了两种主流分布式数据计算处理架构,即Apache Hadoop为代表的批处理系统和Twitter Storm为代表的流处理系统,分别从集群组成、计算模型、生态系统等角度进行了分析,在系统的技术路线、计算时效、数据吞吐、系统灵活、容错处理与生态系统等方面进行了性能比较。(3)构建了面向流处理的软件架构,该架构使用了以并行计算为特征的分布式处理模式,采用了基于内存计算的分布式流处理技术,取代现有系统中以串行计算为特征的集中式处理模式,理论分析与测试结果表明,该架构有效提升了系统实时性能。(4)针对现有流处理系统无法实现离线数据深度分析挖掘的问题,本文提出了一种批处理与流处理相结合的新型数据处理架构,该架构具有统一的计算平台、支持超大规模数据的实时计算、面向多种业务需求、计算结果精确灵活、系统易实现与可扩展等优点。