【摘 要】
:
随着网络技术和应用的迅速发展,视频流量成为互联网中增长最快的流量类型,其占据了网络流量的大部分。快速增长的视频流量对互联网的管理造成了严峻的挑战。此外网络中充斥着大量不健康和非法的视频,这些视频严重危害人们的身心健康同时也扰乱了社会的稳定发展,因而从网络的角度对互联网中的视频流量进行有效的管理是一个迫切需要解决的问题。互联网中的视频流量是一种典型的非平衡数据,像色情和暴力的视频相对于正常的视频流量
论文部分内容阅读
随着网络技术和应用的迅速发展,视频流量成为互联网中增长最快的流量类型,其占据了网络流量的大部分。快速增长的视频流量对互联网的管理造成了严峻的挑战。此外网络中充斥着大量不健康和非法的视频,这些视频严重危害人们的身心健康同时也扰乱了社会的稳定发展,因而从网络的角度对互联网中的视频流量进行有效的管理是一个迫切需要解决的问题。互联网中的视频流量是一种典型的非平衡数据,像色情和暴力的视频相对于正常的视频流量是比较少的,因此互联网视频流量的识别是一种非平衡问题。目前有很多不同的方法可以解决非平衡问题,其中数据层面的方法由于其独立于分类器的特性而受到广泛的关注,然而这些方法有一定的缺陷,它们只是简单的考虑局部近邻信息然后线性的生成数据,这会导致错误样本的生成。本文针对互联网视频流量的非平衡问题展开研究,建立了一个从基础数据的采集到视频流量识别方法的解决方案。在本文中首先提出了一种新的有效特征提取方法,即字节码分布(BCD),为互联网视频流量类型的识别做前期准备。BCD方法首先从视频流中计算每个字节码值(0到255)出现的次数,然后计算每个字节码出现的频率。这样256个比率就是提取的视频流量的特征。比起传统的包层面的特征,BCD特征包含了更多的视频类型信息,可以更加正确地识别。针对视频流量的非平衡问题,本文提出了一种新的数据层面的方法,即生成式学习(GL)。在GL中,采用高斯混合模型(GMM)来拟合原始数据的分布并基于此分布生成新数据。生成的数据包括合成的少数类和多数类,用于训练学习模型。相关实验结果表明,GL方法在与其他非平衡过采样方法对比中具有竞争力,并且Wilcoxon符号秩检验结果证明了所提出方法的显著优势。该方法以较高的AUC值成功的识别出非平衡互联网中的视频流量。为进一步提升非平衡互联网视频流量的识别效果,本文针对GL方法的不足,提出了另一种新的过采样方法,即高斯分布引导的过采样(GDGO)。在GDGO中,首先通过一个计数因素和一个距离因素加权少数类实例,然后通过概率选择机制选择锚点少数类实例,最后以锚点少数类为中心生成符合高斯分布的数据。相关实验结果表明,GDGO的性能高于其他对比的非平衡过采样方法,假设检验结果再一次验证了提出的方法对于解决非平衡问题的有效性。GDGO也进一步提高了非平衡互联网视频流量的识别。
其他文献
作为常存在于高演化体系下的花岗岩“四分组”效应,其成因一直存在争议。本文以中部拉萨地体北缘、北拉萨地体南缘尼玛地区卓嘎普花岗岩基进行了全岩主量元素、微量元素、锆石U-Pb定年以及锆石原位Hf同位素分析。卓嘎普花岗岩基主要由二长花岗岩、正长花岗岩和碱长花岗岩组成,这些样品均具有高硅、高全碱、高钾等特征,为高钾钙碱性弱过铝质高分异I型花岗岩。根据稀土元素特征,这些样品可分为两组:组I稀土元素为不具有“
内蒙双尖子山Pb-Zn-Ag矿床位于黄岗—甘珠尔庙银多金属成矿带的东北段,是目前发现的中国最大的银矿床,已查明主、共生矿产资源储量银金属量15474.42吨;铅金属量39.22万吨;锌金属量152.30万吨。双尖子山Pb-Zn-Ag矿床岩浆作用与成矿作用的关系还不明确,有关双尖子山矿床银的赋存状态、搬运形式和沉淀机制等问题尚未系统研究。本文在详尽的野外地质调查和岩、矿相学观察的基础上,使用电子探针
信息技术的发展使得现代工业过程逐渐趋于智能化和复杂化,为保障工业过程的安全可靠,过程监测技术变得越来越重要,基于数据驱动的方法是目前该领域中的重点研究方向,其关键是
固体激光器在国防建设、国民经济、科技研发及日常生活等领域均有广泛应用,但其在使用过程中受热效应的影响,存在输出功率受限、出光质量降低和安全风险等问题。随着高功率激光器的迅速发展,采用微通道冷却系统的直接液冷固体激光器由于其换热能力好、输出功率高等优势受到了研究者们的关注。本文依据某小型直接液冷固体激光器的实际参数,建立液冷系统的微通道和增益模块计算模型,并采用FLUENT等软件进行数值模拟,分析相
图像校正和匹配作为图像处理领域的基本问题,是图像预处理过程的关键技术之一,它在医学、遥感、军事和双目立体视觉等众多工程领域有着广泛的应用。图像配准校正是将不同时间和传感器设备等不同的条件下得到的同一场景下的两幅或多幅图像进行配准、叠加的过程。目前图像校正算法使用较多的是SIFT(Scale Invariant Feature Transform)特征和随机采样一致性(Random Sample C
随着超大规模集成电路的不断发展,芯片的规模变大,结构变得更加复杂,对芯片进行测试时所需的测试数据量在不断增加,使得测试时芯片的测试成本不断提高。同时测试时的功耗也在不断提高,对芯片结构产生不良影响,造成芯片的良品率降低。针对集成电路的发展过程中测试数据量增加和测试功耗提升的问题,本文利用三态信号的特性对这些问题进行研究,所做的主要工作如下:提出了一种基于三态信号的测试数据相容压缩方法。该方法首先对
窄带物联网(Narrow Band Internet of Things,NB-IoT)作为近几年物联网领域的新兴技术之一,其凭借着低功耗、广覆盖、低成本、大容量等优势,已经应用在多种垂直行业,呈现出指数式增长。NB-IoT天线作为NB-IoT系统通信的关键部件,其性能的好坏直接影响NB-IoT系统的通信质量与效率。NB-IoT系统具有双频通信的特点,并且覆盖的频段范围较宽,对NB-IoT天线提出
第一章Parkin基因在原发性肝细胞癌中的表达及临床意义目的:检测parkin蛋白在原发性肝细胞癌组织中的表达,并分析其意义。方法:收集永州市中心医院南北院2013年1月至2017年12
量子态区分既是量子物理学的基础问题,也是量子信息科学中的核心任务,自上世纪70年代提出以来,得到了持续的关注和研究。量子物理学的基本理论指出,从一个量子态中获取其编码
在实际工业过程中,控制系统运行初期大多处于良好的运行状态。但是,由于设备磨损、系统故障等原因,加上缺乏定期的维护,导致了控制系统出现性能下降的现象,不仅会降低企业的