一种基于梯度提升的云安全机器学习算法

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:setsail2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:近年来,云计算技术飞速发展,许多企业和机构将自己的业务迁移到云上,这样不仅降低费用,还能提高效率。但随之而来的是云服务提供者和用户被大量的恶意软件攻击。许多机器学习算法通过对云平台上可能发生的行为进行预测,来保护云系统不受攻击,取得了不错的效果。但当所学习的数据集较大和稀疏时,这些机器学习算法效果不是很好。本文采用了一种梯度提升的决策树算法,能对云计算系统上的恶意软件攻击进行更准确的预测。实验验证了本方法的有效性。
  关键词:云计算安全  机器学习  梯度  下采样  决策树算法
  中图分类号:TP391                           文献标识码:A                 文章编号:1674-098X(2021)06(a)-0072-04
  A Gradient Boosting Machine Learning Algorithm for Cloud Security
  Gabriel  MO Tengfei  WU Yongcheng*
  (Jingchu University of Technology   Computer Engineering School, Jingmen, Hubei Province, 448000 China)
  Abstract: In recent years, with the rapid development of cloud computing technology, many enterprises and institutions transfer their business to the cloud, which not only reduces costs, but also provides efficiency. But then it is easier for cloud service providers being attacked by a large number of malware. Many machine learning algorithms are used to protect the cloud system from attack by predicting the possible behavior on the cloud platform, and achieved good performance. However, when the data set is large and sparse, the effect of these machine learning algorithms is not good. In this paper, a gradient boosting decision tree algorithm is adopted, which can more accurately predict the malware attacks on cloud computing system. Experiment results show the effectiveness of the proposed method.
  Key Words: Cloud computing security; Machine learning; Gradient; Down sampling; Decision tree algorithm
  信息化時代,每家公司和机构都利用计算机进行相关数据处理。对一家公司来说,一台计算机的运算能力往往无法满足需求,因此该单位就要购置一台运算能力更强的计算机,也就是服务器。如果单位的规模再大一些,可能需要多台服务器,组成一个数据中心。建立一个数据中心,除了巨大的初期建设成本之外,后期的计算机和网络维护支出,都是中小型单位和企业难以支付的。云计算(Cloud Computing)就是在此背景下诞生的。云计算是以互联网为基础的分布式计算,使用者可以从云提供商那里随时按需获得自己所需的计算资源,像使用自来水一样,按需付费即可,不必每家单位都建立和维护一个自己的服务器和数据中心,这样大大降低了成本和提高了效率。
  云计算提供的服务主要分3种:软件即服务(SaaS,
  Software as a Service)、基础设施即服务(IaaS,
  Infrastructure as a Service)、平台即服务(PaaS, Platform as a Service)。但伴随着云计算产生的安全问题,带来很多挑战[1-3]。比如对于公有云平台,由于被很多租户使用,这样大大增加了某租户非法访问其他租户的内容和信息的风险。
  机器学习(Machine Learning)是人工智能(Artificial Intelligence, AI)中的一个跨学科的领域,它通过对相关的数据进行学习,实现决策支持。在云计算安全性问题和云数据管理方面,机器学习是一种较高效的方法。一些机器学习的算法如线性回归、支持向量机、贝叶斯等,和其他一些安全措施结合在一起,能用来提高云服务的安全性[4-6]。但是,当这些机器学习算法学习的数据集较大且稀疏时,效果不是很理想[7]。
  本文提出了一种梯度提升(Gradient Boosting)的决策树(Decision Tree)算法,能对云计算系统上的恶意软件攻击进行更准确的预测。在一个较大且稀疏的数据集上,验证了本算法在恶意软件检测率和运行时间方面的有效性。   1  相关工作
  尽管云计算服务迅猛发展,企业和个人都转向利用云服务,但其安全性问题的确是个严峻挑战。A. Vieira采用决策树和随机森林对用户的在线行为进行了预测[7]。决策树是一种树状的决策工具,它包含一些分支和叶子。决策树比其他的机器学习方法如人工神经网络(artificial neural network)、逻辑回归(logistic regression)速度要快,且更容易可视化。它的缺点是容易产生对数据的过拟合。随机森林(random forests)是一种用来进行分类或回归的机器学习算法。它学习和训练一组决策树,最后决策的结果由森林中每个决策树输出结果的众数决定。总体来说,它比单一的决策树算法具有更高的准确性。但无论是决策树还是随机森林算法,如果学习的数据集很稀疏时,效果都不理想[7]。
  H. Kuswanto等实现了一种基于逻辑回归的算法,用来对用户不良行为进行预测[8]。一般的逻辑回归的因变量是二分类的,H. Kuswanto等的这种算法将逻辑回归涉及的因变量划分成几个子空间,从而实现多分类。其目的是能对基于云服务的大数据集进行学习,并准确预测用户的不良行为。对于大的数据集,如果它是线性可分的,邏辑回归具有优势,但它只适合预测离散数据,而且当数据集较大时,容易产生过拟合[9]。
  2  基于梯度提升的云安全算法
  为了对恶意软件攻击进行预测,本文采用了一种梯度提升决策树算法[10]。梯度提升(gradient boosting)是一种提升(boosting)算法,它属于集成学习(ensemble learning)的一种。提升(boosting)是一种可将弱学习器提升为强学习器的算法。提升算法基于这样一种思想:对于一个复杂的任务,将多个分类器(classifier)的判断总和得出的结果要比任何一个分类器单独的判断好。
  2.1 梯度单向采样方法
  因为传统的梯度提升决策树算法很耗时,为减少性能开销,许多方法被采用。例如可通过下采样(downsample)方式来减少样本的数量,从而减少运行时间。但它要考虑数据样例的权重,所以不能直接用于梯度提升算法。同样,减少每个数据样例的特征数也是一个减少梯度提升算法运行时间的方法,但这样会影响算法的精度。本文采用下采样方法:采用了一种梯度单向采样方法,用来减少样本的数量。
  虽然供学习的数据集中的每个实例数据没有一个固有权重值,但在计算信息增益时,可以采用梯度,即:梯度越大的实例,对信息增益的贡献率就越高。在采用下采样将样本数减少时,梯度小的样本就被清洗掉了。这样会带来一个问题:整个数据集的数据分布被破坏了。为此,在梯度小的数据实例上进行随机采样,对梯度大的数据则全部保留[7]。具体算法如下:先对整个数据集中的实例按梯度进行排序,然后按从大到小的顺序选出所有梯度高的实例(占整个数据集的a)。对剩余的实例,以采样率b随机选取。最后,对选择的这些梯度较小的实例,按(1-a)/b 的比例进行对其权值扩大。这样可以保证,在下采样的情况下,原数据集的分布基本没有被改变。
  2.2 基于梯度提升的云安全算法
  本文提出的基于梯度提升的云安全算法,完整描述如图1所示。
  算法中,损失函数采用交叉熵损失函数,如公式(1)所示:
  (1)
  在二分类问题中,当yi=1时,LogLoss= - logpi,预测输出越接近真实样本标签1,损失越小。当yi=0时,LogLoss= - log(1-pi ),预测输出越接近真实样本标签0,损失越小。该公式的意义在于:当预测类型与真实标签的值越接近,损失函数的值越小,样本的重要性就越高,越应该在下采样时被采样。
  3  实验
  本算法使用的是微软公司提供的一个云安全环境中恶意软件预测数据集[11]。该数据集有训练数据4.04GB,测试数据3.55GB。先用训练数据对算法进行训练,得到分类器。然后用学习到的分类器,在测试数据上进行测试,分析预测的准确性。因为数据量很大,所以采用传统的随机森林等算法将非常耗时。由于本算法采用下采样方法,大大减少了训练数据的样本数,将在基本不影响预测精度的情况下,大大减少运行时间。
  测试数据的输出包含2个属性值:userID和Has Detection,在预测结果和用户之间建立一种映射关系。同时,在用户与其所占的地理位置之间也有关联。根据对恶意软件预测的概率,对用户未来的网络攻击行为进行预测,从而保护云安全。
  在该数据集上,分别采用随机森林、简单随机下采样算法、基于梯度提升的云安全算法进行实验。简单随机下采样算法很简单,即直接在训练数据集上,按a+b的比例,选取样本。实验环境是Inter Core i5-4210H CPU和Windows8 操作系统。算法迭代次数为500。基于梯度提升的云安全算法实验最后的准确率为70.08%,比随机森林有所下降,但运行时间只有6h左右,时间大大减少。具体如表1所示。
  4  结语
  随着云计算的快速发展,云安全变得越来越重要。传统的机器学习算法进行恶意软件预测,当数据集很大时,非常耗时。本文提出了一种基于梯度提升的云安全机器学习算法,采用了一种单向梯度采样方法,在保持样本分布不变的情况下,大大减少了训练样本数,实验验证了本算法的有效性。
  参考文献
  [1] Mathkunti N.Cloud Computing: Security Issues [J].Int. J. Comput. Commun. Eng.,2014(3):259–263.
  [2] 刘明,孙银.浅谈大数据云计算环境下的数据安全[J].南方农机,2019,50(5):147.   [3] 高源,雷瑩莹.云计算环境大数据安全和隐私保护策略研究[J].网络空间安全,2017(6):7-9.
  [4] Le Duc T., Leiva, R.G., Casari, P.Machine Learning Methods for Reliable Resource Provisioning in Edge-Cloud Computing: A Survey[J]. ACM Comput. Surv.,2019(52):1–39.
  [5] 李丹彤,冯海云,高涌皓.一种基于机器学习算法的网络安全评估方法[J].电子设计工程,2021,29(12): 138-142.
  [6] Guo A J X, Zhu F.Spectral-spatial feature extraction and classification by ANN supervised with center loss in hyperspectral imagery[J].IEEE Transactions on Geoscience and Remote Sensing, 2019, 53(3):1755-1767.
  [7] A. Vieira.Predicting online user behaviour using deep learning algorithms[J/OL].http://arxiv.org/abs/1511.06247.
  [8] H. Kuswanto, A. Asfihani, Y. Sarumaha.  Logistic regression ensemble for predicting customer defection with very large sample size[J].Procedia Computer Science,2015,72:86–93.
  [9] X. Chen, P. Ender, M. Mitchell,et al.Logistic regression with Stata[M].UCLA: Academic Technology Services, Statistical Consulting Group,2011.
  [10] J. H. Friedman.Greedy function approximation: A gradient boosting machine[J].The Annals of Statistics,2001,29:1189–1232.
  [11] Microsoft malware prediction dataset[EB/OL].https://www.kaggle.com/c/microsoft-malware-prediction/data.
其他文献
上期回顾:李扬不得不带我一起离开,大K 摧毁能源站就是想让他们放弃地球。我付出了永远失去大K 的代价,才来到“大眼睛”上。原来,“大眼睛”就是“徘徊者”。  一间偌大的办公间里,椭圆形长桌边围坐着四五个人,他们的衣着跟外面的人不一样。  桌面上是蓝色的全息视频,一只眼睛形状的虚拟框架应该是整個“徘徊者”的外观。为首的中年男子正跟众人说着什么,机器人上前介绍,他才注意到我。  他起身走来,上下打量我
期刊
摘 要:随着我国经济的快速增长,国内的工程建设规模也不断得以扩张,为保障工程建设的质量,确保工程有序推进,对工程试验检测影响因素若干问题进行研究就显得尤为重要。本文通过对工程试验检测的作用进行分析,指出来强化工程试验检测的重要意义,与此同时提出了影响工程试验检测的主要因素,最后就提高工程试验检测效率的解决策略进行了探究。  关键词:工程 试验检测 影响因素 解决策略  中图分类号:TU995.3
摘 要:为了优化某炮射弹丸气动性结构设计,获得弹丸飞行过程中准确的气动力参数。本文建立了弹丸外流场模型并生成可计算的结构化网格,并采用了外流场数值计算方法;通过FLUENT软件,针对不同来流马赫数,不同攻角的条件下;对弹丸的流场分布和气动特性进行了计算与分析,符合超音速弹丸阻力气动规律;计算结果为弹丸飞行稳定性和弹道仿真分析提供了重要理论依据。  关键词:弹丸 气动性能 外流场 稳定性  中图分类
摘 要:为了保证工程建设过程中安全防护工程和主体工程同时运行,确保建设项目在安全方面符合国家的有关法规、标准和规定。本文通过分析哈尔滨地铁3号线一期工程拟建项目的自然环境、施工过程、施工场地等,并辨识出了在一期建设过程中影响工程安全和环境安全的原因。本文对此提出了合理可行的安全技术,从而提高了工程项目建设过程中的安全性和工作效率,避免和减少了施工过程中的安全事故。  关键词:建设过程 施工安全 工
摘 要:随着胶接技术的不断发展,其在可靠性及耐久性方面取得了重要突破,特别是在汽车和航空航天等结构领域,胶接连接的应用日渐广泛。本文针对某飞机防冰前缘在制造过程中底部出现气动外缘型值公差超差现象,研究了该现象产生的原因及机理,同时提出了相应的改进措施,并且完成了现场跟踪验证,有效解决了气动外缘型值公差超差问题。  关键词:胶接 防冰前缘 气动外缘型值公差 改进措施  中图分类号:
摘 要:网络靶场已成为支持网络空间安全技术验证、网络武器试验、攻防对抗演练和网络风险评估的主要手段,针对传统有线网络靶场形势,本文分析了无线网络靶场的发展趋势及技术难点,并依托信号仿真技术设计了一种无线网络靶场系统,将传统有线网络靶场的攻防对抗模式移植于无线网络空间,根据常用无线通信手段整体设计了无线网络对抗模式,极大的扩展了网络攻防对抗的范围。  關键词:无线网络对抗 无线网络仿真 数据采集分析
摘 要:无人机蜂群作战是无人作战体系中的典型手段,极可能对传统作战方式产生颠覆性影响,无人机作战与反无人机作战一直都是研究热点。无人作战模式是军事作战发展的重要方向,无人作战在抵近侦查、忠诚僚机、集群饱和攻击、无人机长时间察打一体值班巡逻方面具备极为显著的作战优势,特别是无人机蜂群作战,有着饱和式攻击力和复杂地型适应能力的特点,应用场景广阔,配合正在兴起的人工智能技术,成为目前无人作战技术研究的重
“每次离开总是装作轻松的样子,微笑着说回去吧。转身泪湿眼底,多想和从前一样,牵你温暖手掌,可是你不在我身旁……”  一个看似古董的小盒子循环播放着这首歌,方米粒轻轻地抚摸着它。这是教员口中的“父母”送他的生日礼物——MP3,一种旧时代的音乐播放器。不知为什么,这首歌常常能够牵动着他的心弦。伴随着音乐,他略带迷茫地望向舷窗外的蓝色星球,幻想着教员描述中人类起源的地方,幻想着教员口中旧时代的“家庭”关
期刊
摘 要:互联网体外诊断技术作为“互联网+”在体外诊断领域的典范应用,具备使用门槛低,对人员要求不高等优点,十分适合在基层医疗机构推广应用,鉴于基层医疗机构的特点,互联网体外诊断技术有必要选择与之相适应的质量控制策略。在互联网体外诊断的大量实践的基础上,结合基层医疗的实际情况,本文对互联网体外诊断质量控制策略进行详细分析及设计。  关键词:互联网+ 体外诊断 质量控制 基层医疗 物联网  中图分类号
摘 要:随着我国科学技术的发展,大部分的民爆行业设备都已达到了自动化程度。但是因为行业的特殊性,自动化设备在投入到实际的工作运转中,仍然会存在一些问题,尤其是安全问题。民爆行业的安全对其发展有着非常重要的影响,因此该行业也越来越重视安全问题,并对安全方面进行了较为全面的研究。本文主要分析民爆行业自动化设备应用的安全问题,并给出相应的解决建议。  关键词:民爆行业 自动化设备 安全问题 探讨  中图