论文部分内容阅读
【摘要】随着互联网技术的快速发展和普及,网络攻击和威胁已经渗透到我们生活的方方面面,网络安全成为人们关注的焦点。在面对网络攻击的研究中,入侵检测作为保证网络安全的一道防线,起着至关重要的作用。针对当前入侵检测收集的各类数据集中存在的数据不平衡问题,提出了一种基于深度学习的平衡数据生成模型,利用数据生成模型生成平衡数据集,使用这个模型框架进行入侵检测,最终保证网络数据链络的安全。
【关键词】入侵检测;深度学习;异常检测
中图分类号:G221 文献标识碼:A DOI:10.12246/j.issn.1673-0348.2021.01.042
随着信息和通信的飞速发展,网络中的产生的海量数据传输越来越多,这将给入侵检测系统带来负担,因为海量的数据在传输过程中需要检测处理,为了提高入侵检测系统的有效性和准确性,入侵检测系统不能再依赖于一些简单或明显的特征来识别攻击,而必须能够更深入地观察和检测,因此在侵检测系统中需要观察更多的特征。
1. 入侵检测系统
入侵检测系统是用来监视和检测信息系统或网络系统的入侵行为的。入侵检测系统可分为主机入侵检测系统和网络入侵检测系统。入侵检测系统通过软件或硬件的形式在网络或系统上检测安全,在入侵检测系统中,入侵检测系统会从监视的系统中或是网络环境中获得信息,当检测到入侵活动或疑似入侵行为时会发出通知,如检测到攻击时,会发出警报,或者系统中出现可疑的异常活动,会提醒用户注意设备是否安全,并针对这些信息加以分析,在经过分析与比对后,会针对分析后的结果采取后续的反映,这些反应可能是对使用者发出警报,或是采取较为积极主动的反应措施,并针对这些行为做记录,这些记录将用以提供给下次作为分析时使用。以保障网络中系统的完整性、隐私性及可用性。但入侵检测技术也存在的误报率高、海量数据下检测率低和数据不平衡下检测率低等问题。
2. 入侵检测系统技术
深度学习:深度学习是由多个隐含层组成的人工神经网络。多层的存在使得网络能够学习到更多的抽象特征。其实质是当海量数据通过多个隐含层时,深层网络会自动学习有用特征,实现任意线性变换,最终提高预测准确性。深度神经网络(DNN)最简单的结构包含输入层,隐藏层和输出层。深度学习算法能很好地实现模式特征的自动学习,并将特征学习融入到建模中,减少人为设计特征造成的不完整性。这种学习算法能够在大量数据集中突出其强大的优越性能。深度神经网络的基本网络结构如图1。
人工神经网络:人工神经网络的神经元素被用来形成复杂的假设。当神经网络包含更多的神经元素时,神经网络形成的假设就变得更加复杂。当输入通过神经网络传播到输出时,输出结果被分类。我们可以评估输出与真实目标之间的差异,并在这一阶段使用梯度,这样我们就可以在反向传播的过程中通过神经网络,将输出节点中的误差推回到网络中去估计隐藏节点中的误差。因此,可以计算成本函数的梯度。经过训练,神经网络系统可以学习和创建模式。
自动编码机:在深度学习研究中自动编码器是一种非监督式学习的方法训练而成的神经网络,它主要的功能为学习如何重建出最初的输入,因为自动编码器具被重建输入的功能,因此如果一组资料经过编码后,这一组编码能够被还原成原始的特征,那就代表这组编码包含了原始资料的精华特征,在过去,这些特征提取的技术和资料化简的技术主要在通过改进特征的表现方式或降低计算复杂度来改良一般的数据分析过程。自动编码器的理想的特性之一是能够提供更强大的非线性标准化,在自动编码器上,通过应用倒传递算法能辅助所需的维度降低,该算法通过类神经网络的输出值和类神经网络的输入值相等来实现,自动编码器通常具有输入层、输出层和隐藏层,在自动编码机中,通常输出层和输入曾有相同的维度,隐藏层的维度通常比输入层的维度小,这个隐藏层的位置在自动编码器这个架构的正中心,这个编码层可以被当作是原始资料被压缩过后的特征向量,可以被使用于分类,这个隐藏层用于创建高维度资料的低维版本,就是所谓的编码。通过降低维度,自动编码器被强迫要挖掘出数据分布的最显着特征,在理想的情况下,自动编码器生成的数据特性将提供比原始数据本身更好的数据呈现方式。
3. 入侵检测系统的挑战
随着近年来信息通信的快速发展,人们使用的传输量也在不断增加。此外,大量物联网设备的使用,这也造成了大量的数据传输。随着这些流量的产生,将对入侵检测系统提出挑战。入侵检测系统遭遇的挑战主要有三个方面:
一是在网络中大量生成的资料,网络中大量生成的资料主要是因为网络和通信的发展迅速,且物联网设备的发展也日渐多元,因此造成大量的设备进入市面,因而造成大量的信息在网络中传输,产生的海量数据信息,这将会对入侵检测系统造成负担,因为大量的资料在传输的过程中,需要保障数据信息正确性、完整性,需要进行信息安全的处理,即使在计算机性能提高的情况下,仍然不足以应付日渐增加的传输量。
二是入侵检测系统检测的深度,在入侵检测系统检测的深度方面,为了提升入侵检测系统的有效性和准确性,入侵检测系统不能再依靠一些简易或明显的特征来辨识攻击与否,而必须要能更深度来观察与检测,这也意谓入侵检测系统需要观察更多特征。
三是多样的协议和资料,随着网络的快速发展,网络上的流量越来越多样化,产生了更多的协议。这将造成很多多余的特征出现。当我们对流量进行测试时,必须测试更多的数据,这些多余的特征将影响我们对于流量是否是异常行为造成误导,造成我们判断上产生误判,因此,需要去除这些冗余特征。而深度学习对于特征压缩方面,非线性的特征去除方法取得了很好的效果。然而,我们发现利用深度学习实现数据特征压缩时,会影响训练数据的平衡,因此,为了解决不平衡数据集对训练模型的影响,利用可变自动编码器来平衡训练数据集,并利用平衡数据集训练非对称自动编码器去除冗余特征。深度学习能够让机器从经验中去学习知识,因此可以节省大量的人力消耗在操作或指定机器应该具备的知识,这让机器可以用比较简单的架构来建立复杂的概念。 这三个问题是近年来入侵检测系统主要面对的挑战。在我们的生活中,网络和计算机技术的普及对网络安全提出了更高的要求。为了满足数据的完整性、机密性和可用性这些需求,我们必须提高网络使用的安全性,保护脆弱的操作系统和网络,防止未经授权的访问和避免数据被盗的风险,入侵检测系统必须扫描和检测网络上传输的所有包,并尝试通过合适的算法将流量分为入侵和非入侵,这是入侵检测系统面临的挑战。其中最主要的挑战便是面对日益庞大的传输资料,该如何从中有效且快速的将大量的资料做分类,这样的分类必须准确的,同时,处理的速度也必须有一定的要求,否则将会造成检测的时间过长,将会造成整体系统效率的下降,为了要达到快速检测的目的,必须要在检测特征的数量上做权衡,因此需要对入侵检测系统进行检测、选择、去除冗余特征,避免影响到入侵检测系统的准确性。
4. 深度学习平衡资料生成模型
深度学习能够通过大量数据资料的训练并从中自动找到资料和类别中的相关性,深度自动编码器由两个对称的深度神经网络组成,通常有数个隐藏层用于编码,另一组用数个隐藏层来解码,利用深度自动编码器实现了从高维数据到低维数据的深度学习算法,取得了良好的效果。
深度学习可以应用于自动编码器,其中隐藏层是简单的概念,而多个隐藏层用于提供深度,这种技术称为深度自动编码器。这种增加的深度可以降低计算成本和所需的训练数据量,并产生更高程度的准确性,来自每个隐藏层的输出被用作逐步提高级别的输入。因此,堆栈式自动编码器的第一层通常在原始输入中学习一阶特性,第二层通常在一阶特征出现时学习与模式相关的二阶特征,后续的更高层次学习更高阶的特性,图2显示了一个深度自动编码器的表示,在这里,上标签表示该神经网络层的名称,下面表示神经网络层中间连接的情况。
通过平衡资料,我们可以让特征压缩模型变得更加稳健,也可以让模型在训练时避免过度适应训练资料的情况,但我们先前取得平衡资料时并没有考量平衡资料的平衡程度差别,首先要了解平衡资料的合理性,如果过多的平衡资料,会造成太多因为过多资料是属于人工生成而产生的偏差,因此训练模型的资料各类别是必须要平衡的,但尽可能让两者间生成的数量不能过多,以免因为生成的训练资料过多而产生偏离资料真实性的发生。使用平衡的资料集来训练特征压缩模型,以免不平衡的资料会使神经网络的训练产生影响,通过验证使用平衡资料所训练的特征压缩模型受益于平和的资料集,而避免特定类别的资料训练不足的情况,而产生对特定类别的资料检测准确率下降的结果,资料量的提升有助于训练后模型的准确度,但较大的资料量会造成模型训练时,因所需的资料量庞大,而发生训练时间拉长的结果。训练时间代表模型的速度,较好的硬件效能会使训练时间加快,减少资料量也会使模型训练时间缩短,但却会降低模型最终的准确率。
利用资料生成模型生成平衡的资料集,让模型面对各种类别的资料是属于平等的状态,让使用该资料集训练所得到入侵检测模型在分类上有更好的表现,利用平衡资料集来训练特征压缩模型,由于用神经网路作为特征压缩模型,可以从资料中学习出关键的特征,这样不仅减少大量人力去針对资料作分析并花费大量时间以取得关键的特征,并使用关键特征去训练模型,还可以减轻传统机器学习在分类上的负担,也降低分类上的复杂度,也让深度学习的优点与传统机器学习的优点相结合,取得更好的成果与效能。
参考文献:
[1]诸俊.计算机网络安全入侵检测技术分析[J].电子技术与软件工程.2015(09):233.
[2]吴燕妮.基于网络入侵检测的分析研究[J].价值工程.2012(20):215-216.
[3]甘宏,潘丹.基于网络安全入侵检测技术与防火墙结合的应用研究[J].科技广场.2011(01):45-47.
[4]管廷昭.持续攻击下智能网络入侵主动防御系统设计[J].电子设计工.2018(18):44-48.
[5]丁顺莺.基于深度学习的大数据网络安全防御模式研究[J].信息与电脑(理论版).2018(17):194-195.
【关键词】入侵检测;深度学习;异常检测
中图分类号:G221 文献标识碼:A DOI:10.12246/j.issn.1673-0348.2021.01.042
随着信息和通信的飞速发展,网络中的产生的海量数据传输越来越多,这将给入侵检测系统带来负担,因为海量的数据在传输过程中需要检测处理,为了提高入侵检测系统的有效性和准确性,入侵检测系统不能再依赖于一些简单或明显的特征来识别攻击,而必须能够更深入地观察和检测,因此在侵检测系统中需要观察更多的特征。
1. 入侵检测系统
入侵检测系统是用来监视和检测信息系统或网络系统的入侵行为的。入侵检测系统可分为主机入侵检测系统和网络入侵检测系统。入侵检测系统通过软件或硬件的形式在网络或系统上检测安全,在入侵检测系统中,入侵检测系统会从监视的系统中或是网络环境中获得信息,当检测到入侵活动或疑似入侵行为时会发出通知,如检测到攻击时,会发出警报,或者系统中出现可疑的异常活动,会提醒用户注意设备是否安全,并针对这些信息加以分析,在经过分析与比对后,会针对分析后的结果采取后续的反映,这些反应可能是对使用者发出警报,或是采取较为积极主动的反应措施,并针对这些行为做记录,这些记录将用以提供给下次作为分析时使用。以保障网络中系统的完整性、隐私性及可用性。但入侵检测技术也存在的误报率高、海量数据下检测率低和数据不平衡下检测率低等问题。
2. 入侵检测系统技术
深度学习:深度学习是由多个隐含层组成的人工神经网络。多层的存在使得网络能够学习到更多的抽象特征。其实质是当海量数据通过多个隐含层时,深层网络会自动学习有用特征,实现任意线性变换,最终提高预测准确性。深度神经网络(DNN)最简单的结构包含输入层,隐藏层和输出层。深度学习算法能很好地实现模式特征的自动学习,并将特征学习融入到建模中,减少人为设计特征造成的不完整性。这种学习算法能够在大量数据集中突出其强大的优越性能。深度神经网络的基本网络结构如图1。
人工神经网络:人工神经网络的神经元素被用来形成复杂的假设。当神经网络包含更多的神经元素时,神经网络形成的假设就变得更加复杂。当输入通过神经网络传播到输出时,输出结果被分类。我们可以评估输出与真实目标之间的差异,并在这一阶段使用梯度,这样我们就可以在反向传播的过程中通过神经网络,将输出节点中的误差推回到网络中去估计隐藏节点中的误差。因此,可以计算成本函数的梯度。经过训练,神经网络系统可以学习和创建模式。
自动编码机:在深度学习研究中自动编码器是一种非监督式学习的方法训练而成的神经网络,它主要的功能为学习如何重建出最初的输入,因为自动编码器具被重建输入的功能,因此如果一组资料经过编码后,这一组编码能够被还原成原始的特征,那就代表这组编码包含了原始资料的精华特征,在过去,这些特征提取的技术和资料化简的技术主要在通过改进特征的表现方式或降低计算复杂度来改良一般的数据分析过程。自动编码器的理想的特性之一是能够提供更强大的非线性标准化,在自动编码器上,通过应用倒传递算法能辅助所需的维度降低,该算法通过类神经网络的输出值和类神经网络的输入值相等来实现,自动编码器通常具有输入层、输出层和隐藏层,在自动编码机中,通常输出层和输入曾有相同的维度,隐藏层的维度通常比输入层的维度小,这个隐藏层的位置在自动编码器这个架构的正中心,这个编码层可以被当作是原始资料被压缩过后的特征向量,可以被使用于分类,这个隐藏层用于创建高维度资料的低维版本,就是所谓的编码。通过降低维度,自动编码器被强迫要挖掘出数据分布的最显着特征,在理想的情况下,自动编码器生成的数据特性将提供比原始数据本身更好的数据呈现方式。
3. 入侵检测系统的挑战
随着近年来信息通信的快速发展,人们使用的传输量也在不断增加。此外,大量物联网设备的使用,这也造成了大量的数据传输。随着这些流量的产生,将对入侵检测系统提出挑战。入侵检测系统遭遇的挑战主要有三个方面:
一是在网络中大量生成的资料,网络中大量生成的资料主要是因为网络和通信的发展迅速,且物联网设备的发展也日渐多元,因此造成大量的设备进入市面,因而造成大量的信息在网络中传输,产生的海量数据信息,这将会对入侵检测系统造成负担,因为大量的资料在传输的过程中,需要保障数据信息正确性、完整性,需要进行信息安全的处理,即使在计算机性能提高的情况下,仍然不足以应付日渐增加的传输量。
二是入侵检测系统检测的深度,在入侵检测系统检测的深度方面,为了提升入侵检测系统的有效性和准确性,入侵检测系统不能再依靠一些简易或明显的特征来辨识攻击与否,而必须要能更深度来观察与检测,这也意谓入侵检测系统需要观察更多特征。
三是多样的协议和资料,随着网络的快速发展,网络上的流量越来越多样化,产生了更多的协议。这将造成很多多余的特征出现。当我们对流量进行测试时,必须测试更多的数据,这些多余的特征将影响我们对于流量是否是异常行为造成误导,造成我们判断上产生误判,因此,需要去除这些冗余特征。而深度学习对于特征压缩方面,非线性的特征去除方法取得了很好的效果。然而,我们发现利用深度学习实现数据特征压缩时,会影响训练数据的平衡,因此,为了解决不平衡数据集对训练模型的影响,利用可变自动编码器来平衡训练数据集,并利用平衡数据集训练非对称自动编码器去除冗余特征。深度学习能够让机器从经验中去学习知识,因此可以节省大量的人力消耗在操作或指定机器应该具备的知识,这让机器可以用比较简单的架构来建立复杂的概念。 这三个问题是近年来入侵检测系统主要面对的挑战。在我们的生活中,网络和计算机技术的普及对网络安全提出了更高的要求。为了满足数据的完整性、机密性和可用性这些需求,我们必须提高网络使用的安全性,保护脆弱的操作系统和网络,防止未经授权的访问和避免数据被盗的风险,入侵检测系统必须扫描和检测网络上传输的所有包,并尝试通过合适的算法将流量分为入侵和非入侵,这是入侵检测系统面临的挑战。其中最主要的挑战便是面对日益庞大的传输资料,该如何从中有效且快速的将大量的资料做分类,这样的分类必须准确的,同时,处理的速度也必须有一定的要求,否则将会造成检测的时间过长,将会造成整体系统效率的下降,为了要达到快速检测的目的,必须要在检测特征的数量上做权衡,因此需要对入侵检测系统进行检测、选择、去除冗余特征,避免影响到入侵检测系统的准确性。
4. 深度学习平衡资料生成模型
深度学习能够通过大量数据资料的训练并从中自动找到资料和类别中的相关性,深度自动编码器由两个对称的深度神经网络组成,通常有数个隐藏层用于编码,另一组用数个隐藏层来解码,利用深度自动编码器实现了从高维数据到低维数据的深度学习算法,取得了良好的效果。
深度学习可以应用于自动编码器,其中隐藏层是简单的概念,而多个隐藏层用于提供深度,这种技术称为深度自动编码器。这种增加的深度可以降低计算成本和所需的训练数据量,并产生更高程度的准确性,来自每个隐藏层的输出被用作逐步提高级别的输入。因此,堆栈式自动编码器的第一层通常在原始输入中学习一阶特性,第二层通常在一阶特征出现时学习与模式相关的二阶特征,后续的更高层次学习更高阶的特性,图2显示了一个深度自动编码器的表示,在这里,上标签表示该神经网络层的名称,下面表示神经网络层中间连接的情况。
通过平衡资料,我们可以让特征压缩模型变得更加稳健,也可以让模型在训练时避免过度适应训练资料的情况,但我们先前取得平衡资料时并没有考量平衡资料的平衡程度差别,首先要了解平衡资料的合理性,如果过多的平衡资料,会造成太多因为过多资料是属于人工生成而产生的偏差,因此训练模型的资料各类别是必须要平衡的,但尽可能让两者间生成的数量不能过多,以免因为生成的训练资料过多而产生偏离资料真实性的发生。使用平衡的资料集来训练特征压缩模型,以免不平衡的资料会使神经网络的训练产生影响,通过验证使用平衡资料所训练的特征压缩模型受益于平和的资料集,而避免特定类别的资料训练不足的情况,而产生对特定类别的资料检测准确率下降的结果,资料量的提升有助于训练后模型的准确度,但较大的资料量会造成模型训练时,因所需的资料量庞大,而发生训练时间拉长的结果。训练时间代表模型的速度,较好的硬件效能会使训练时间加快,减少资料量也会使模型训练时间缩短,但却会降低模型最终的准确率。
利用资料生成模型生成平衡的资料集,让模型面对各种类别的资料是属于平等的状态,让使用该资料集训练所得到入侵检测模型在分类上有更好的表现,利用平衡资料集来训练特征压缩模型,由于用神经网路作为特征压缩模型,可以从资料中学习出关键的特征,这样不仅减少大量人力去針对资料作分析并花费大量时间以取得关键的特征,并使用关键特征去训练模型,还可以减轻传统机器学习在分类上的负担,也降低分类上的复杂度,也让深度学习的优点与传统机器学习的优点相结合,取得更好的成果与效能。
参考文献:
[1]诸俊.计算机网络安全入侵检测技术分析[J].电子技术与软件工程.2015(09):233.
[2]吴燕妮.基于网络入侵检测的分析研究[J].价值工程.2012(20):215-216.
[3]甘宏,潘丹.基于网络安全入侵检测技术与防火墙结合的应用研究[J].科技广场.2011(01):45-47.
[4]管廷昭.持续攻击下智能网络入侵主动防御系统设计[J].电子设计工.2018(18):44-48.
[5]丁顺莺.基于深度学习的大数据网络安全防御模式研究[J].信息与电脑(理论版).2018(17):194-195.