论文部分内容阅读
人工免疫网络模型是一种借鉴和利用生物免疫系统的性质和机制,用于解决工程和科学问题的自然计算(软计算)模型,它已成为人工免疫系统理论及应用的重要研究内容。本文系统地研究了面向流数据特征提取的人工免疫网络模型及相关技术,研究成果概括为如下三个方面: 1、现有的人工免疫网络模型在针对大规模、动态、时变流数据环境(例如:Web电子商务、医学监视、传感器和金融监测等领域)时,处理代价巨大,难以保证应用系统的实时性。本文提出了面向流数据特征提取的人工免疫网络模型IFSaiNET,为了达到对流数据数据量上的约简,设计一个远小于流数据集规模的概要数据集—免疫记忆抗体集,通过这个免疫记忆网络抗体集可以最大程度地获得流数据整体的变化特征,并通过引入窗口机制等相应的增量策略,使IFSaiNET具有动态跟踪不断递增的大规模信息的特征提取能力,具有占用内存空间少、运算代价低的优势。 2、IFSaiNET模型最终是用一个小规模的免疫记忆网络抗体集反映抗原数据集,从而达到数据特征提取的目的。由于免疫克隆选择机制的作用,缺乏能通过网络的拓扑结构信息特征,来对人工免疫网络模型的性能进行评价的方法。本文提出了一种基于复杂网络的人工免疫网络模型拓扑结构分析技术,首先构建出抗原和抗体数据集的网络结构,将复杂网络模型中的网络社区结构作为对人工免疫网络模型学习性能的评价指标,通过对数据提取前的抗原数据网络和提取后的免疫记忆网络的网络社区结构的对比,作为对人工免疫网络模型的特征提取性能的评价方法。验证了人工免疫网络模型可以保持特征提取前后的网络拓扑结构上的稳定性。同时,为了分析数据集的非均衡问题对IFSaiNET模型学习效率的影响,提出了基于网络社区结构的数据集非均衡程度评价方法,给出了决定数据集非均衡程度的两个关键因素:“均匀度”和“内聚度”概念,指出了高均匀性和高内聚性是决定数据集非均衡程度的关键因素。实验结果验证了利用网络社区结构作为数据集非均衡程度度量的有效性,并分析了数据集的非均衡程度对人工免疫网络模型学习性能的影响。 3、提出了一种基于邮件服务器端的特征垃圾邮件获取技术,首先,通过对邮件头和邮件体的分析,给出了能反映用户共同的趋向的垃圾邮件特征指标,然后,通过IFSaiNET模型,抽取出同一邮件服务器内的所有邮件用户各自认可的垃圾邮件的特征垃圾邮件,从而能在邮件服务器端进行拦截。并给出了从垃圾邮件文本文件中获取垃圾邮件行为特征的数据预处理算法。实验结果表明,新方法在运行时间和自适应性上有明显的优势,可作为目前主流反垃圾技术的辅助技术。