论文部分内容阅读
随着现代移动通信技术和手机短信业务的发展,由于手机短信廉价、快速、方便等特点,短信交流已经是人们日常生活的一部分。但是,由此也带来了问题,不良分子利用了短信业务成本低廉的特点,大肆发送垃圾短信,严重干扰人们的正常生活,特别是欺诈性短信的泛滥对社会造成了极其严重的危害。近年来,媒体曝光了许多关于垃圾短信的案例,足以可见垃圾短信过滤技术亟待完善。 短信过滤的主要技术包括:黑白名单过滤技术,关键词过滤技术,基于短信内容分类的过滤技术。但是,单独使用以上哪项技术都不能使短信过滤达到很好的效果。本文在上述三种短信过滤技术的基础上,针对朴素贝叶斯特征词条件独立的假设,提出了一种改进的类条件概率估值法及贝叶斯决策策略。该方法针对贝叶斯分类属性条件独立的缺点,利用改进的决策策略,对给定的短信语料库进行训练,得到过滤模型。并且对算法进行了测试,测试结果表明,改进的贝叶斯决策算法的文本分类器不仅训练简单,而且分类准确度高,解决了朴素贝叶斯算法的不稳定性。 本文的主要工作包括6个方面:(1)研究垃圾短信过滤不同环节的各项技术,对比各项技术使用不同方法的优缺点;(2)对垃圾短信内容伪装技术进行研究,实现对干扰字符、繁体字、拆分字、谐音字及停用词的处理;(3)比较不同的特征提取方法,提出综合词频、互信息的特征提取方法;(4)分析不同的文本分类技术及算法,基于贝叶斯分类算法,实现了一种改进的类条件概率估值法及贝叶斯决策策略的垃圾短信过滤系统,并取得了良好的实验效果;(5)提出一种反馈自学习机制,该反馈机制主要包括服务器的重新训练与用户反馈自学习两部分;(6)结合三种过滤技术,实现了Android手机客户端垃圾短信过滤系统,设计了良好的用户界面及反馈机制,在手机上取得了较好的实际应用。 本文的主要创新点为:提出综合词频、互信息的特征提取方法WFMI;实现了一种改进的类条件概率估值法及贝叶斯决策策略的垃圾短信过滤系统;提出了一种新的反馈自学习机制。