论文部分内容阅读
【摘要】 当短信已经成为人们生活当中不可或缺的通信方式时,短消息业务也为信息垃圾的传播提供了一条便捷的渠道,因此针对垃圾短信的拦截成为各运营商的社会责任和网络运维的一部分。但低速、短信内容频繁变异让传统的拦截策略束手无策,而中文的博大精深又让新颖的语义分析拦截法命中率低及误拦率高。本文以不变应万变,抽取垃圾短信内容中的联系电话、诈骗卡号等数字串信息作为特征码进行拦截,则实现了对垃圾短信的精准打击,收到事半功倍的效果;如果进一步建立垃圾短信的大数据平台,则可使得基于广义数字的垃圾短信拦截策略如虎添翼。
【关键词】 垃圾短信 广义数字 变异数字 拦截 大数据一、背景
随着无线通信服务功能的不断增强和完善,短消息业务已成为人们生活中最普及的电信增值业务。然而,短消息业务在为用户提供便捷消息服务的同时,也为信息垃圾的传播提供了一条方便的渠道。随着我国移动通信网络建设的不断完善以及越来越多的可提供给用户短消息服务的平台的出现,垃圾短消息有愈演愈烈的趋势。
垃圾短消息的存在给用户与运营商均带来了不少的烦恼:用户可能被恐吓、骚扰,往往也被犯罪分子利用来进行违法活动,破坏安定团结的政治局面;而运营商也会由于用户错误的界定垃圾短消息的来源而受到用户的误解,给公司努力建立的良好声誉和品牌形象造成严重的影响。因此,目前各运营商在网络侧都大大加强了垃圾短信的整治力度,采用了众所周知的过滤和拦截,如流量规则、传统的关键字规则及其它发送行为规则,但由于这些规则本身的限制及垃圾短信发送者的“灵活”调整,使得现有的垃圾短信过滤策略总是滞后于垃圾短信发送行为,同时因为误拦与拦截效果两者之间的矛盾而使现有的垃圾短信拦截很难达到理想的效果。
因此,各运营商虽投入了大量的人力物力与垃圾短信发送者“斗智斗勇”,但效果仍不理解,仍因为频繁的垃圾、诈骗短信的发送而受到用户的各种诟病。
二、垃圾短信的关键特征分析
随着垃圾短信的整治工作的深入,垃圾短信由于以下特点而现有的大量策略面临命中率或误拦率高的窘境:
1. 低速发送。垃圾短信发送者采用大量号码,单一的发送号码至同一区域或省份的垃圾短信发送数量很小,内容分散。
2. 垃圾短信关键信息频繁变异,是传统的关键字抽样和语义分析等拦截手段一直的“恶梦”,如兜售发票的垃圾短信,可以将发票变异成“发漂”、“發票”、“發piao”等,由于汉字的博大精深,所以短信内容中的中文可以变异成无数种,让运营商的垃圾拦截策略来不及变化和调整。
基于低速、短信内容的变异和中文的博大精深让传统的拦截策略束手无策,如果全部采用人工审核和确认的方式进行,为了保证正常短信的时延不能增加,必须进行系统扩容和大量的人工审核人力投入,并且人工审核量巨大。
但是,垃圾短信的内容无论怎么变异,无论怎么低速,无论发给谁,其中必不可少的关键特征是联系电话或诈骗电话的银行卡号等。因此,无论垃圾短信的发送号码如何变化,但由于成本关系,垃圾短信中所带的数字信息不会频繁变化。
【案例1】发送号码:86159xxxx7205;垃圾短信内容:“宏达汽贸销售九成新(套牌)车本田丰田3万,奥迪宝马5万,现代1,5万越野车可送货当面交易电话137xxx36768刘经理”
【案例1】发送号码:86159xxxx8307;垃圾短信内容:“汽贸销售九成新(套片卑)车本田丰田3万,奥迪宝马5万,现代1,5万越野车。联系电话137xxx36768王经理”
因此,根据垃圾短信中的数字信息这一关键特征进行拦截,将击中垃圾短信发送者的软肋,在垃圾短信拦截系统或手机中加以应用,可以取得事半功倍的效果。而基于短信内容中的数字进行拦截,是目前众多研究者和拦截策略所忽略的,且很多采用复杂算法的拦截策略还首先过滤了其中的数字等ASCII码,将垃圾短信中相对不变的关键特征“抛弃”了。
三、基于广义数字的拦截
3.1 主要功能模块
针对垃圾短信中的数字信息关键特征进行拦截,主要模块如下图1所示:
1. 广义数字。垃圾短信中所包含的电话号码、账号等数字,很多时候已不是简单的阿拉伯数字,不法分子为了避免被拦截,往往通过各种各样的形式来表达数字信息:阿拉伯数字、中文简体数字(如一、二、三)、繁体数字(如壹、贰、叁)、谐音数字、带符号的数字(①、?)、以全角或上下标表示的数字(如?、?)等等。我们把这些表现形式多样的“数字”定义为广义数字。
2. 广义数字库。即定义0~9每个阿拉伯数字分别可以等价于哪些广义数字,这是针对垃圾短信中的数字信息关键特征进行拦截成果与否的关键,系统拦截策略将根据此“广义数字库”进行判定字符是否为“数字”。如广义数字库中定义的数字1包括:1、1、①、?、?、1、一、壹。由于可以理解的变异数字不会像汉字那样千变万化,因此“广义数字库”样本量将会非常小,易于维护、拦截效率高。例如,垃圾短信内容将联系号码变异为“壹③91ooOO0000”,拦截系统也会根据“广义数字库”识别出“139100000000”的数字串。随着新的变异数字的出现,可以将新出现的变异数字加入“广义数字库”。
3. 短消息输入源。通常为短信中心、垃圾短信接收服务器或手机终端,根据“广义数字”拦截策略所布署的位置而变化。当布署于垃圾短信拦截系统中时,就是从短信中心接收过来的原始的短消息内容。
4. 短消息预处理。垃圾短信发送者同样会在诈骗卡号或联系电话中夹杂空格等无效的ASCII码或其它字符,干扰拦截策略。因此预处理模块会首先将定义的一组字符进行过滤,包括“广义数字”中定义的数字以外的ASCII码、自定义的其它字符等。
5. 数字串黑名单。系统根据策略人工或自动将定性为垃圾短信中的联系电话、银行号码加入“数字串黑名单”中,作为后续“广义数字策略”判定的标准。
6. 广义数字策略判定。根据“广义数字库”,按一定规则抽取短信内容的广义数字并转换为标准的数字串,如果该数字串在“数字串黑名单”中,则判定为垃圾短信。
3.2 基于广义数字的拦截流程
基于广义数字拦截策略的拦截流程如下图2所示。
3.3 特殊约束
为了避免广义数字拦截策略产生误拦截,因此需要进行一些特殊约束:
1. 从短信内容中抽样出的数字串s1,必须满足一定的长度,即m≤length(s1) ≤n。对于长度过短的数字串,如10086、银行类的9xxxx开头的联系电话、短信内容中出现的短数字等,均为正常,因此长度过短或过长均应排除。
2. 数字串白名单。将一些容易出现在短信内容中的正常的数字串加入数字串白名单列表中,此列表中的数字串判定为正常短信。
3.4 应用效果
通过将广义数字拦截策略应用在试验环境,在数字串长度、数字串白名单等特殊约束条件下,广义数字拦截策略拦截准确率达到100%。如果布署在生产环境,将会大大减少人工投入,大幅降低垃圾短信判定的人工审核量。
四、结束语
现有常规的垃圾短信拦截策略已无法适应新的垃圾短信发送特征。而通过抽取垃圾短信内容中最本质的数字信息特征,利用广义数字拦截策略,以不变应万变,将垃圾短信内容中的联系电话、诈骗卡号等数字串加入黑名单,则可实现对垃圾短信的精准打击,收到事半功倍的效果。同时,切中垃圾短信发送者要害的广义数字拦截策略原理简单,易于推广和应用。
而随着大数据时代的到来,各运营商更可以针对垃圾短信建立全集团的大样本量。这样,即使每个号码往某一地区只发少量垃圾短信,但从汇集全集团范围内的大数据中仍可以抽取可观的数字特征串,丰富各省公司的数字串黑名单,以进一步提高各省公司垃圾短信的拦截率,让垃圾短信无所遁形。
【关键词】 垃圾短信 广义数字 变异数字 拦截 大数据一、背景
随着无线通信服务功能的不断增强和完善,短消息业务已成为人们生活中最普及的电信增值业务。然而,短消息业务在为用户提供便捷消息服务的同时,也为信息垃圾的传播提供了一条方便的渠道。随着我国移动通信网络建设的不断完善以及越来越多的可提供给用户短消息服务的平台的出现,垃圾短消息有愈演愈烈的趋势。
垃圾短消息的存在给用户与运营商均带来了不少的烦恼:用户可能被恐吓、骚扰,往往也被犯罪分子利用来进行违法活动,破坏安定团结的政治局面;而运营商也会由于用户错误的界定垃圾短消息的来源而受到用户的误解,给公司努力建立的良好声誉和品牌形象造成严重的影响。因此,目前各运营商在网络侧都大大加强了垃圾短信的整治力度,采用了众所周知的过滤和拦截,如流量规则、传统的关键字规则及其它发送行为规则,但由于这些规则本身的限制及垃圾短信发送者的“灵活”调整,使得现有的垃圾短信过滤策略总是滞后于垃圾短信发送行为,同时因为误拦与拦截效果两者之间的矛盾而使现有的垃圾短信拦截很难达到理想的效果。
因此,各运营商虽投入了大量的人力物力与垃圾短信发送者“斗智斗勇”,但效果仍不理解,仍因为频繁的垃圾、诈骗短信的发送而受到用户的各种诟病。
二、垃圾短信的关键特征分析
随着垃圾短信的整治工作的深入,垃圾短信由于以下特点而现有的大量策略面临命中率或误拦率高的窘境:
1. 低速发送。垃圾短信发送者采用大量号码,单一的发送号码至同一区域或省份的垃圾短信发送数量很小,内容分散。
2. 垃圾短信关键信息频繁变异,是传统的关键字抽样和语义分析等拦截手段一直的“恶梦”,如兜售发票的垃圾短信,可以将发票变异成“发漂”、“發票”、“發piao”等,由于汉字的博大精深,所以短信内容中的中文可以变异成无数种,让运营商的垃圾拦截策略来不及变化和调整。
基于低速、短信内容的变异和中文的博大精深让传统的拦截策略束手无策,如果全部采用人工审核和确认的方式进行,为了保证正常短信的时延不能增加,必须进行系统扩容和大量的人工审核人力投入,并且人工审核量巨大。
但是,垃圾短信的内容无论怎么变异,无论怎么低速,无论发给谁,其中必不可少的关键特征是联系电话或诈骗电话的银行卡号等。因此,无论垃圾短信的发送号码如何变化,但由于成本关系,垃圾短信中所带的数字信息不会频繁变化。
【案例1】发送号码:86159xxxx7205;垃圾短信内容:“宏达汽贸销售九成新(套牌)车本田丰田3万,奥迪宝马5万,现代1,5万越野车可送货当面交易电话137xxx36768刘经理”
【案例1】发送号码:86159xxxx8307;垃圾短信内容:“汽贸销售九成新(套片卑)车本田丰田3万,奥迪宝马5万,现代1,5万越野车。联系电话137xxx36768王经理”
因此,根据垃圾短信中的数字信息这一关键特征进行拦截,将击中垃圾短信发送者的软肋,在垃圾短信拦截系统或手机中加以应用,可以取得事半功倍的效果。而基于短信内容中的数字进行拦截,是目前众多研究者和拦截策略所忽略的,且很多采用复杂算法的拦截策略还首先过滤了其中的数字等ASCII码,将垃圾短信中相对不变的关键特征“抛弃”了。
三、基于广义数字的拦截
3.1 主要功能模块
针对垃圾短信中的数字信息关键特征进行拦截,主要模块如下图1所示:
1. 广义数字。垃圾短信中所包含的电话号码、账号等数字,很多时候已不是简单的阿拉伯数字,不法分子为了避免被拦截,往往通过各种各样的形式来表达数字信息:阿拉伯数字、中文简体数字(如一、二、三)、繁体数字(如壹、贰、叁)、谐音数字、带符号的数字(①、?)、以全角或上下标表示的数字(如?、?)等等。我们把这些表现形式多样的“数字”定义为广义数字。
2. 广义数字库。即定义0~9每个阿拉伯数字分别可以等价于哪些广义数字,这是针对垃圾短信中的数字信息关键特征进行拦截成果与否的关键,系统拦截策略将根据此“广义数字库”进行判定字符是否为“数字”。如广义数字库中定义的数字1包括:1、1、①、?、?、1、一、壹。由于可以理解的变异数字不会像汉字那样千变万化,因此“广义数字库”样本量将会非常小,易于维护、拦截效率高。例如,垃圾短信内容将联系号码变异为“壹③91ooOO0000”,拦截系统也会根据“广义数字库”识别出“139100000000”的数字串。随着新的变异数字的出现,可以将新出现的变异数字加入“广义数字库”。
3. 短消息输入源。通常为短信中心、垃圾短信接收服务器或手机终端,根据“广义数字”拦截策略所布署的位置而变化。当布署于垃圾短信拦截系统中时,就是从短信中心接收过来的原始的短消息内容。
4. 短消息预处理。垃圾短信发送者同样会在诈骗卡号或联系电话中夹杂空格等无效的ASCII码或其它字符,干扰拦截策略。因此预处理模块会首先将定义的一组字符进行过滤,包括“广义数字”中定义的数字以外的ASCII码、自定义的其它字符等。
5. 数字串黑名单。系统根据策略人工或自动将定性为垃圾短信中的联系电话、银行号码加入“数字串黑名单”中,作为后续“广义数字策略”判定的标准。
6. 广义数字策略判定。根据“广义数字库”,按一定规则抽取短信内容的广义数字并转换为标准的数字串,如果该数字串在“数字串黑名单”中,则判定为垃圾短信。
3.2 基于广义数字的拦截流程
基于广义数字拦截策略的拦截流程如下图2所示。
3.3 特殊约束
为了避免广义数字拦截策略产生误拦截,因此需要进行一些特殊约束:
1. 从短信内容中抽样出的数字串s1,必须满足一定的长度,即m≤length(s1) ≤n。对于长度过短的数字串,如10086、银行类的9xxxx开头的联系电话、短信内容中出现的短数字等,均为正常,因此长度过短或过长均应排除。
2. 数字串白名单。将一些容易出现在短信内容中的正常的数字串加入数字串白名单列表中,此列表中的数字串判定为正常短信。
3.4 应用效果
通过将广义数字拦截策略应用在试验环境,在数字串长度、数字串白名单等特殊约束条件下,广义数字拦截策略拦截准确率达到100%。如果布署在生产环境,将会大大减少人工投入,大幅降低垃圾短信判定的人工审核量。
四、结束语
现有常规的垃圾短信拦截策略已无法适应新的垃圾短信发送特征。而通过抽取垃圾短信内容中最本质的数字信息特征,利用广义数字拦截策略,以不变应万变,将垃圾短信内容中的联系电话、诈骗卡号等数字串加入黑名单,则可实现对垃圾短信的精准打击,收到事半功倍的效果。同时,切中垃圾短信发送者要害的广义数字拦截策略原理简单,易于推广和应用。
而随着大数据时代的到来,各运营商更可以针对垃圾短信建立全集团的大样本量。这样,即使每个号码往某一地区只发少量垃圾短信,但从汇集全集团范围内的大数据中仍可以抽取可观的数字特征串,丰富各省公司的数字串黑名单,以进一步提高各省公司垃圾短信的拦截率,让垃圾短信无所遁形。