移动应用流量分析与识别研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jinr0op3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展和应用,移动应用程序成为人们进行移动办公、社交活动以及网络购物的重要载体。通过流量识别移动设备上安装的应用程序是网络管理员和营销机构等获取信息的重要手段。识别移动应用流量可以为移动互联网流量的配置部署提供支持,改善基于业务或者应用的细粒度移动网络资源分配,增强移动网络和应用程序的安全性。由于移动应用程序的多样性以及加密协议的大量使用,传统流量识别技术不能很好地适用于移动端的流量。目前,许多研究将机器学习方法应用于识别移动应用流量,但这种方法存在着一些挑战。首先,机器学习在处理不平衡的流量数据集时,容易产生偏差;其次,移动应用流量的特征难以提取,模型训练存在难度。本文针对以上问题,主要的研究工作分为3个部分:第一,对移动应用流量进行了分析,并针对流量分布不平衡这一特点,通过实验验证了SMOTE+ENN样本平衡方法在流量识别领域的可行性和高效性。第二,提出了识别移动应用流量的方法。其中APP流量特征模型的构建过程包括:自建流量数据集;设定流量处理环节中的突发阈值;提出多特征融合的特征提取方案;并将SMOTE+ENN与随机森林相结合来对流量样本进行训练。最后通过对比实验验证了本文方法得到的识别准确率达到96%。第三,设计并实现的轻量级移动应用流量识别系统,具有实时检测和离线识别功能,能够将捕获到的真实应用流量进行流量处理和特征提取,识别出流量来自哪款应用程序。
其他文献
濒危动物监测是野生保护研究的重要手段之一,但常规的监测手段需要大量人工干预,不利于全时监测的开展。因此,发展智能化的濒危动物监测系统成为迫切需要,而构建高效的目标检测模型是其中的关键所在。然而,由于濒危动物数量和分布都有典型的稀疏性,导致濒危动物图像样本的极度匮乏。若直接采用稀疏样本进行训练,模型会出现严重的过拟合,难以正常工作。如何利用极少量濒危动物样本进行学习,就成为濒危动物智能监测需要关注的
学位
近年来,随着自然语言处理领域的快速发展,事件抽取作为自然语言处理领域非常重要的基线任务展现出了颇高的学术价值以及研究价值,因而吸引来了众多的国内外科研工作们的关注。目前大部分事件抽取相关研究是基于英文文本进行的,基于中文文本事件抽取的研究工作相对较少。事件抽取任务可分为句子级事件抽取与文档级事件抽取。句子级事件抽取相对比较容易,主要是因为句子级文本的长度相对较短,并且所描述的语义信息比较集中。对于
学位
传统回归任务是指使用一组输入变量来预测单个连续变量,而多目标回归旨在使用一组输入变量同时预测多个连续目标变量。尽管在多目标回归方面取得了很大进展,但仍然存在三个具有挑战性的问题,即如何建模输入特征和输出目标之间的潜在关系,如何探索输入间的潜在关系以及如何探索目标间的依赖关系。本文围绕这三个挑战性问题展开研究,提出了两种有效的多目标回归算法,主要研究内容如下:1.提出了一种学习本地局部实例关联的多目
学位
近几年,随着移动电子设备和智能手机的迅速普及,基于位置的社交网络(Location-based Social Network,LBSN)为基于位置的研究带来了大量用户签到数据,使位置预测领域取得重大突破。通过现有的预测模型可以预测出人们的出行模式、访问位置、某个特定地点的访问量和访问人员,以往难以做到的服务在如今都随着技术的进步和数据的丰富而变得易如反掌。道路规划、拥堵控制、广告投放和人流控制,这
学位
随着当下互联网硬件和软件的快速发展,大量的APP或者网页产生了大量的文本信息数据,人工处理这些文本信息的方式越来越难以胜任时代的发展。如何快速的从大量杂乱无序的文本中,提取出简短准确有用的信息,已成为当下急需研究的课题。近些年的研究成果之一就是自动文本摘要,使用计算机来处理这些文本信息。自动文本摘要是从大量相同主题的文本中提取出关键信息生成简短摘要的方法。人们可以快速的获取关键信息而无需阅读整个文
学位
稀疏网络编码中选取大量为零的编码系数,在原包子集中进行编码,可使信宿端产生一稀疏解码矩阵。为降低解码复杂度和传输延时,稀疏网络编码中可实现部分解码,即在解码整代原包前提下,通过收集部分编码包解码出原始数据。中继协作无线网络中引入稀疏网络编码技术可有效提高传输效率,进一步通过中继节点传输模式的调整,在传输开销有限的情况下最大化再生包占比率,提高解码概率。针对传统基于稀疏网络编码的传输方案,其后期信宿
学位
脑机接口(Brain Computer Interface,BCI)是一种通过神经活动识别人的意图并将电生理信号转换为设备控制命令的技术。基于脑电(Electroencephalography,EEG)的运动想象(Motor Imagery,MI)脑机接口在构建人脑与外部设备的通路中得到了广泛的应用。然而,由于EEG严重受到低信噪比和不可预测的模式变化的影响,基于MI的EEG信号的解码仍然是一项具
学位
心脏磁共振成像(cardiac magnetic resonance,CMR)主要用于心脏功能评估和心血管疾病诊断。通过心脏磁共振图像评估临床参数,包括射血分数、心室容积、脉搏输出量和心肌质量,它们被认为是黄金标准。应用计算机辅助诊断来解决这一问题已成为近年来的热点。以往的研究提出了很多基于传统特征的方法,随着卷积神经网络的发展,心脏磁共振图像中器官自动分割方法相对于传统特征提取方法在速度和准确率
学位
文本主题内容的提取在自然语言处理领域内是一个基础性的研究问题,它为人工智能的各种应用提供了相应基础。然而受传统挖掘技术的限制,智能化的准确提取文本内容还存在较大问题。特别是在过去的几年里,人们存储数据的能力不断提高,再加上互联网的日益普及,已经创建了大量的电子文本,这使得人工阅读甚至传统挖掘技术去适应这快速发展的信息社会已经显得不合时宜。因此研究一项能够快速且智能化提取文本内容的模型,有助于推动整
学位
随着互联网商品交易日益频繁,商家希望能够从用户评论中了解用户的喜好,从而改进商品。传统情感分析的困境在于无法准确判断评论中用户对商品各个方面的情感偏好,而方面级情感分析这类细粒度的方法能够有效识别不同方面的情感,因此更能满足商家的需求。基于依存句法的方法能够捕获方面词与意见词之间的远距离信息,从而被广泛用于方面级情感分析任务,但该类方法仍然存在句法信息学习不足,以及句法信息学习与上下文信息学习分离
学位