论文部分内容阅读
手机短信具有使用方便、价格便宜的特点,是中国手机用户普遍接受的通讯方式。近年来,随着移动通信技术的发展和手机用户数的增长,短信业务也得到了迅速发展,但与此同时垃圾短信也开始泛滥,严重干扰了人们的日常生活。因此垃圾短信过滤成为了一个研究的热点。对于运营商而言,在短信服务中心的过滤由于无法做到零误判,并且处理数据量过大,而短信实时性要求较高,因此对垃圾短信的过滤主要集中于手机客户端。目前基于MTK平台的功能手机仍然占据国内很多的市场份额。相比智能手机,MTK手机在短信过滤方面的应用少之又少。因此有必要在MTK手机上研究短信过滤。本文对基于黑名单和关键词过滤的垃圾短信过滤系统进行了研究和设计,使用户能够使用黑名单和关键词进行垃圾短信的过滤,针对常用系统的不足之处引入了一种高效的匹配算法并提出了一种有效的更新关键词库的方法,同时将决策树算法应用到该过滤系统中,使该系统能够具有更好的过滤性能。本文完成的主要工作包括以下几个方面:第一,研究了应用于短信过滤系统中的相关关键技术,包括关键词过滤算法、文本分词、特征提取、文本分类算法等,并重点描述了关键词查找算法和基于决策树分类算法在垃圾短信过滤系统中的应用。第二,结合MTK手机的软硬件条件完成了黑名单过滤和关键词过滤相结合的垃圾短信过滤系统的设计,分析了系统的关键技术和原系统存在的问题,使用了WM多模匹配算法进行关键词匹配的方法,提高了查找效率。针对关键词库不便于维护的问题,提出日志反馈的方法分析已过滤的垃圾短信,提取关键词并更新过滤关键词库,达到改进系统的目的。第三,将决策树算法应用到该垃圾过滤系统中,提取了短信的7个主要特征作为决策树的输入向量得到决策树,生成相应的决策规则。并对整个系统进行了分析与评价,取得了较好的效果。该系统已成功应用于多款MTK手机,测试表明,该系统运行稳定可靠,用户反馈良好,各方面性能都达到了课题的要求。