数据流特征选择策略的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:cyuaxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术尤其是网络技术的发展,越来越多的应用领域,如网络监控、垃圾邮件分类、传感器网络等,需要对其以每天数以百万Gbit增长的流数据进行实时处理。由于流数据经常呈现高维性,包含着大量无关特征和冗余特征,当对其进行直接处理时,有可能极大地影响学习算法的效率。利用属性相关性进行特征选择,消除无关特征和冗余特征,可以提高挖掘算法的效率,改善精确性等学习性能。然而,数据流的实时性、无限性以及概念漂移特点,也对传统的特征降维算法提出了严峻的挑战。针对数据流的这些特点,寻找适合于数据流的数据结构,研究有效度量属性相关性的方法对流数据进行降维,这已经成为目前数据流研究的一个热点。   首先,本文深入探讨了特征选择的相关技术,研究了现有的特征选择方法在属性相关性度量方面存在的不足,结合流数据实时性,无限性、概念漂移的特点,提出了一种基于拟合的数据流特征选择算法FSCFFR,该算法可以有效地消除流数据中的冗余特征,提高了学习算法的性能。   其次,本文针对数据流实时性的要求,提出了采用并行计算进行数据流特征选择的实施策略,传统的串行处理速度受限于单处理器的最大物理处理速度,而并行计算可以通过多处理器联合在一定程度上克服这种处理瓶颈。本文采用管理者/工作者模型,并在MPI环境下设计实现了两种通信策略的并行算法,实验表明,利用并行计算可以有效地提高流数据特征选择的效率和速度。   最后,为了验证特征选择在实际应用场景下的表现,本文将整个处理方法运用到网络入侵检测中,对网络入侵检测系统中的数据进行在线分析处理,从而利用实际的示例验证了特征选择算法的可行性和实用性。   综上所述,本文对数据流中特征选择技术的研究具有一定的现实意义,它不仪能消除流数据中的冗余特征,减小空间需求,而且能够改善学习算法的性能,提高数据挖掘的效率。另外,本文的示例验证也对相关的应用具有一定的参考价值。
其他文献
人脸检测是计算机视觉与模式识别领域中最重要的研究课题之一。人脸检测在基于内容的图像检索、虚拟现实、视频监控、人脸识别和身份验证等多方面都有广泛的应用。人脸识别的
随着互联网技术的飞速发展,新的应用和服务不断涌现,应用层协议层出不穷。这在带给人们极大便利的同时,其安全性问题也日趋严重。各种新的应用和未知协议导致网络越来越复杂
在一个由信息技术主导的时代,无论是个人业务还是集体作业,或是在证券、金融、政府、教育等行业领域,抑或是大到关系国家信息安全的机构,密码安全的重要性不言而喻。特别是随着互
与其它生物识别技术相比,虹膜识别具有明显的优势。首先,虹膜具有唯一性,其独特而丰富的纹理特征使得其非常适用于身份鉴别;其次,虹膜的特征更为稳定,而且难于伪造,具有更加可靠的安
基于智能移动设备的3D数字媒体技术及游戏软件设计有较高的技术复杂度和广阔的产业发展前景,其中3D赛车游戏因涉及到完整的图形渲染技术、物理仿真技术和游戏人工智能技术,是该
随着WWW的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速增加。高速增长的Deep Web信息已经成为人们获取信息的一个重要来源。但由于其本身异构性和动态性的
学位
G蛋白偶联受体(GPCR)是一种重要的信号分子受体,在生命活动中起着重要作用,是大约50%所有现代药物的作用目标。随着计算机计算能力的大大增强及人们对生理活性分子与生物分子相
对于大多数的物体,我们都可以通过纹理来描述其表面错综复杂的细节。纹理合成技术从开始发展到现在一直受到众多研究学者的关注,在许多领域都发挥着巨大的作用,是当前图像处
随着图形学以及三维计算机虚拟图像技术的迅速发展,纹理合成技术已成为当今计算机图形学领域的热点之一,并在现实化虚拟仿真、机器视觉处理等领域得到应用。纹理能够展示出细