论文部分内容阅读
在移动通信领域里,短信业务尽管诞生时间不长,但是却凭借着简单、易用、廉价、开放的设计理念深入到人们的工作和生活中,成为人们日常交流的重要方式之一。据工业和信息化部统计,到2008年7月底,全国手机用户数超过6亿;而2008年1-4月,手机短信发送量达到2290亿条,同比增长25.4%。然而,短信业务的特点也导致很多不法分子和商家大量利用短信途径进行广播式传播。既造成了广大的普通用户的生活困扰,也造成了运营商的服务质量下降、投诉量居高不下,而且部分垃圾信息还影响了社会稳定和国家安全。据中国互联网协会发布的调查结果显示,我国手机用户平均每人每周收到8.29条垃圾短信。因此对垃圾短信监控和拦截的研究成了目前移动运营商面对的重要课题。为解决此问题,本文提出了将文本分类技术引入到垃圾短信监控系统中的方案,并加以实现。本文首先研究了课题的现状与发展趋势,介绍了移动运营商常用的垃圾短信监控与拦截技术及项目背景。其次,介绍文本分类中常用的分词、特征提取、以及朴素贝叶斯分类器的基本技术知识。再次,根据中国移动公司实际需求,提出基于文本分类技术的手机短信智能分类系统解决方案并建立系统模型图,进而综合运用文本分类技术,结合传统手机短信监控与拦截技术,实现高效、准确对手机短信进行智能分类。最后,对本系统进行了对比实验,并对系统进行了评估。本文基于中国移动通信公司的实际需求,综合了文本分类中分类技术和传统手机短信监控和拦截技术的优点,提高了手机短信中垃圾短信的识别准确率,降低对于短信监控后的人工审核投入。不同于传统的短信监控系统,只有垃圾短信和非垃圾短信两类,本文中依据实际需求,将短信分类为6类,可以满足移动公司一些特殊业务需要。经过测试,基于内容的短信智能分类系统,可以很好的满足移动运营商的实际需求。