论文部分内容阅读
近年来,手机短信受到广大用户的青睐,但此项业务产生的垃圾短信也严重困扰着人们的生活,干扰着正常的社会秩序,因此,各电信运营商纷纷出台垃圾短信过滤系统,以打击垃圾短信的严重泛滥。目前常用的过滤方法主要有黑白名单过滤机制,基于短信长度及流量的过滤机制,基于关键字匹配的过滤机制,以及基于文本分类智能算法的过滤机制,这些机制虽然在一定程度上遏制了垃圾短信的泛滥,但仍具有明显的缺陷和不足。本文受生物免疫系统的启发,借鉴生物免疫原理,提出了基于文本分类的多层次垃圾短信过滤系统的设计,系统分为几个模块,逐层过滤,环环相扣,使垃圾短信无处遁形。本文所做的工作以及创新点如下:(1)分析了垃圾短信的研究现状,包括成因、危害和主要特征,并对国内外现有的垃圾短信过滤机制进行了总结,探讨了各种机制的优缺点。(2)详细介绍了垃圾短信过滤关键技术,包括文本预处理、中文分词以及特征选择等技术。详细阐述了生物免疫系统原理以及由此开发的人工免疫算法,并对传统的算法进行了改进,简化了抗体和抗原的表示方法和计算方式,使亲和力的计算更加简单,节约了内存,提高了匹配速度。(3)设计了一个基于文本分类的多层次垃圾短信过滤系统,系统由黑白名单模块、短信长度及流量门限模块、内容快速匹配模块和人工免疫模块构成,制定了各模块的主要功能和系统的处理流程。(4)人工免疫模块通过对数据库里的短信进行训练,抗体自体耐受生成合格检测器,对短信进行分类,还可以通过变异机制不断更新短信特征样本库,维持短信样本库的生命力、多样性和自适应性。通过实验表明,相比传统方法而言,本文提出的基于文本分类的多层次垃圾短信过滤系统成功的提高了过滤垃圾短信的智能性、可靠性、正确率和实时性。是一种智能化的改进和完善,具有十分广阔的工程应用前景。